Il presente studio si occupa di valutare e confrontare quattro sistemi di intelligenza artificiale generativa disponibili sul mercato. Questi sistemi sono capaci di generare riassunti partendo da documenti forniti in input. In particolare, nello studio sono stati utilizzati i seguenti strumenti: ChatGPT, Google Gemini, Microsoft Copilot e Claude. In primo luogo, è stata condotta una ricognizione generale sul funzionamento di questi sistemi. Successivamente, sono state definite le modalità di svolgimento dello studio, che è stato condotto utilizzando un totale di sei articoli di natura (scientifica e non), argomento e lingua (inglese e italiana) differente. In seguito, attraverso un processo di prompt engineering, sono state definite le modalità per dialogare con gli strumenti al fine di ottenere riassunti idonei alle richieste dell’utente. I riassunti prodotti dai vari strumenti sono stati infine analizzati utilizzando sia metriche quantitative come il ROUGE e il BERTScore sia criteri qualitativi. Di fatto, integrando le due analisi, si è riusciti a svolgere un’analisi completa, riducendo la soggettività di valutazione e analizzando i riassunti su diversi aspetti. Infine, sono stati confrontati gli strumenti, mettendo in risalto le differenze e le particolarità. I principali risultati emersi dall’analisi sono stati i seguenti: • Si evidenzia che per Claude, Google Gemini e ChatGPT non sono state rilevate significative differenze nelle prestazioni complessive. • Microsoft Copilot è risultato lo strumento con le prestazioni complessive inferiori. • Non è stata rilevata nessuna differenza significativa tra le prestazioni degli strumenti nel produrre riassunti in lingua italiana e lingua inglese.
Riassumere documenti con l'intelligenza artificiale generativa: un confronto tra i principali sistemi in uso
RINCO, MATTEO
2023/2024
Abstract
Il presente studio si occupa di valutare e confrontare quattro sistemi di intelligenza artificiale generativa disponibili sul mercato. Questi sistemi sono capaci di generare riassunti partendo da documenti forniti in input. In particolare, nello studio sono stati utilizzati i seguenti strumenti: ChatGPT, Google Gemini, Microsoft Copilot e Claude. In primo luogo, è stata condotta una ricognizione generale sul funzionamento di questi sistemi. Successivamente, sono state definite le modalità di svolgimento dello studio, che è stato condotto utilizzando un totale di sei articoli di natura (scientifica e non), argomento e lingua (inglese e italiana) differente. In seguito, attraverso un processo di prompt engineering, sono state definite le modalità per dialogare con gli strumenti al fine di ottenere riassunti idonei alle richieste dell’utente. I riassunti prodotti dai vari strumenti sono stati infine analizzati utilizzando sia metriche quantitative come il ROUGE e il BERTScore sia criteri qualitativi. Di fatto, integrando le due analisi, si è riusciti a svolgere un’analisi completa, riducendo la soggettività di valutazione e analizzando i riassunti su diversi aspetti. Infine, sono stati confrontati gli strumenti, mettendo in risalto le differenze e le particolarità. I principali risultati emersi dall’analisi sono stati i seguenti: • Si evidenzia che per Claude, Google Gemini e ChatGPT non sono state rilevate significative differenze nelle prestazioni complessive. • Microsoft Copilot è risultato lo strumento con le prestazioni complessive inferiori. • Non è stata rilevata nessuna differenza significativa tra le prestazioni degli strumenti nel produrre riassunti in lingua italiana e lingua inglese.File | Dimensione | Formato | |
---|---|---|---|
Rinco_Matteo.pdf
accesso aperto
Dimensione
2.23 MB
Formato
Adobe PDF
|
2.23 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/78671