This document describes the work carried out during the internship period by the graduate Andrea Cecchin, student of the University of Padua, at Sync Lab Srl. The internship experience, which lasted a total of three hundred hours, was carried out under the supervision of engineer Fabio Pallaro, as company tutor, and Professor Tullio Vardanega, internal tutor and thesis supervisor. The internship work is part of a Research and Development project aimed at evaluating and comparing the performance of different Large Language Models, when these are used in tasks related to Retrieval-Augmented Generation. The main objective of the project is the creation of a benchmark, specifically structured to evaluate a linguistic model in the specific use case. The document was divided into four chapters, in which I reported the description of the host company and the way of working adopted during the internship, the planned activities and the key technologies of the project, its progress and the final conclusions. In the thesis, I highlighted the words in foreign languages ​​in italics. Furthermore, all the technical, possibly ambiguous or uncommonly used terms mentioned have been marked with a subscript "G" in their first occurrence, to be then explained in the Glossary at the end of the document.

Il presente documento descrive il lavoro svolto durante il periodo di stage dal laureando Andrea Cecchin, studente dell’Università degli Studi di Padova, presso l’azienda Sync Lab Srl. L’esperienza di stage, che ha avuto la durata di trecento ore complessive, è stata svolta sotto la supervisione dell’ingegner Fabio Pallaro, nella figura di tutor aziendale, e del professor Tullio Vardanega, tutor interno e relatore. Il lavoro di stage si inserisce in un progetto di Ricerca e Sviluppo indirizzato alla valutazione e alla comparazione delle performance di diversi Large Language Model, quando questi sono utilizzati in task relative alla Retrieval-Augmented Generation. Il principale obiettivo del progetto è la realizzazione di un benchmark, appositamente strutturato per valutare un modello linguistico nello specifico caso d’uso. Il documento è stato suddiviso in quattro capitoli, nei quali ho riportato la descrizione dell’azienda ospitante e il metodo lavorativo adottato durante lo stage, le attività pianificate e le tecnologie chiave del progetto, il suo svolgimento e le conclusioni finali. Nella stesura della tesi, ho evidenziato in corsivo le parole in lingue straniere. Inoltre, tutti i termini tecnici, possibilmente ambigui o di uso non comune menzionati sono stati segnalati con una "G" a pedice nella loro prima occorrenza, per essere poi spiegati nel Glossario posto al termine del documento.

Confronto tra Large Language Models nella Retrieval-Augmented Generation

CECCHIN, ANDREA
2023/2024

Abstract

This document describes the work carried out during the internship period by the graduate Andrea Cecchin, student of the University of Padua, at Sync Lab Srl. The internship experience, which lasted a total of three hundred hours, was carried out under the supervision of engineer Fabio Pallaro, as company tutor, and Professor Tullio Vardanega, internal tutor and thesis supervisor. The internship work is part of a Research and Development project aimed at evaluating and comparing the performance of different Large Language Models, when these are used in tasks related to Retrieval-Augmented Generation. The main objective of the project is the creation of a benchmark, specifically structured to evaluate a linguistic model in the specific use case. The document was divided into four chapters, in which I reported the description of the host company and the way of working adopted during the internship, the planned activities and the key technologies of the project, its progress and the final conclusions. In the thesis, I highlighted the words in foreign languages ​​in italics. Furthermore, all the technical, possibly ambiguous or uncommonly used terms mentioned have been marked with a subscript "G" in their first occurrence, to be then explained in the Glossary at the end of the document.
2023
Comparison of Large Language Models in Retrieval-Augmented Generation
Il presente documento descrive il lavoro svolto durante il periodo di stage dal laureando Andrea Cecchin, studente dell’Università degli Studi di Padova, presso l’azienda Sync Lab Srl. L’esperienza di stage, che ha avuto la durata di trecento ore complessive, è stata svolta sotto la supervisione dell’ingegner Fabio Pallaro, nella figura di tutor aziendale, e del professor Tullio Vardanega, tutor interno e relatore. Il lavoro di stage si inserisce in un progetto di Ricerca e Sviluppo indirizzato alla valutazione e alla comparazione delle performance di diversi Large Language Model, quando questi sono utilizzati in task relative alla Retrieval-Augmented Generation. Il principale obiettivo del progetto è la realizzazione di un benchmark, appositamente strutturato per valutare un modello linguistico nello specifico caso d’uso. Il documento è stato suddiviso in quattro capitoli, nei quali ho riportato la descrizione dell’azienda ospitante e il metodo lavorativo adottato durante lo stage, le attività pianificate e le tecnologie chiave del progetto, il suo svolgimento e le conclusioni finali. Nella stesura della tesi, ho evidenziato in corsivo le parole in lingue straniere. Inoltre, tutti i termini tecnici, possibilmente ambigui o di uso non comune menzionati sono stati segnalati con una "G" a pedice nella loro prima occorrenza, per essere poi spiegati nel Glossario posto al termine del documento.
Large Language Model
Generative AI
Model evaluation
RAG
File in questo prodotto:
File Dimensione Formato  
AndreaCecchinTesi.pdf

accesso aperto

Dimensione 4.19 MB
Formato Adobe PDF
4.19 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/68850