Design and Development of Generative Information Retrieval Approaches in an Industrial Context

This thesis investigates the design and development of Information Retrieval (IR) techniques in an industrial setting, aimed at enhancing the efficiency and accuracy of a Retrieval-Augmented Generation (RAG) system. The project was conducted in collaboration with Cerved Group S.p.A., leveraging a vertical domain of the company's private knowledge base as the primary data source. The goal was to create an IR component capable of retrieving relevant information for internal users through a chatbot interface, incorporating both traditional and cutting-edge retrieval techniques. To achieve this, a variety of IR methods were implemented and evaluated, ranging from traditional keyword-based searches like BM25 to state-of-the-art semantic search models, including embedding models and cross-encoders. A hybrid search strategy, utilizing Reciprocal Rank Fusion, was also explored to combine the advantages of both keyword-based and semantic retrieval methods. In addition, a chunked version of the dataset was created and employed to assess the system's capability to retrieve the most relevant chunks within documents. Specific methods were developed to extract and process content of pages from the company knowledge base, forming the corpus used for this project. A specialized query set was also designed to evaluate the performance of the IR methods. Experimental results showed that semantic search models significantly outperformed traditional keyword-based methods in relevance and accuracy. The hybrid search approach offered no notable improvements. The best-performing model was a multilingual embedding model from HuggingFace, with a customized chunking strategy, which achieved a Normalized Discounted Cumulative Gain score of 0.8886 on the Italian test set with K=5. This thesis contributes to the company's operations by replacing a keyword-based document retrieval system with a more advanced RAG system that implements semantic search. As a result, in addition to the retrieval quality, employees experienced an increase in retrieval speed by 10x thanks to the IR component, an increase in reception and comprehension of information needed by 20x thanks to the RAG system that provides synthesized answers, and gained access to information previously much more difficult to find.

Questa tesi studia la progettazione e lo sviluppo di tecniche di Information Retrieval (IR) in un contesto industriale, con l'obiettivo di migliorare l'efficienza e l'accuratezza di un sistema di Retrieval-Augmented Generation (RAG). Il progetto è stato condotto in collaborazione con Cerved Group S.p.A., sfruttando dominio verticale della base di conoscenza privata dell'azienda come fonte primaria di dati. L'obiettivo era creare un componente di IR in grado di recuperare informazioni rilevanti per gli utenti interni all'azienda attraverso un chatbot, incorporando tecniche di recupero dati sia tradizionali che all'avanguardia. Diversi metodi di IR sono stati implementati e valutati, dalle ricerche tradizionali basate su parole chiave come BM25 ai modelli di ricerca semantica più avanzati, tra cui modelli di embedding e modelli cross-encoders. È stata esplorata anche una strategia di ricerca ibrida, che utilizza Reciprocal Rank Fusion, per combinare i vantaggi dei metodi basati su parole chiave e semantici. Inoltre, è stata creata ed utilizzata una versione chunked del set di dati per valutare la capacità del sistema di recuperare i chunks più rilevanti all'interno dei documenti. Sono stati sviluppati metodi appositi per estrarre ed elaborare il contenuto delle pagine dalla base di conoscenza aziendale, formando il corpus utilizzato per questo progetto. È stato inoltre progettato un set di query specializzato per valutare le prestazioni dei metodi di IR. I risultati sperimentali hanno mostrato che i modelli di ricerca semantica hanno significativamente superato i metodi di ricerca tradizionali in termini di rilevanza e accuratezza. L'approccio di ricerca ibrido non ha portato miglioramenti. Il miglior modello è stato un embedder multilingua di HuggingFace che, con una strategia di chunking personalizzata, ha ottenuto un valore di Normalized Discounted Cumulative Gain di 0.8886 sul test set italiano con K=5. Questa tesi contribuisce alle attività dell'azienda sostituendo un sistema di recupero documenti basato su parole chiave con un sistema RAG di ricerca semantica. Come risultato, oltre alla qualità del recupero dati, i dipendenti hanno sperimentato un aumento della velocità di recupero di 10 volte grazie alla componente IR, un aumento della ricezione e comprensione delle informazioni necessarie di 20 volte grazie al sistema RAG che fornisce risposte sintetizzate, e hanno ottenuto l'accesso a informazioni precedentemente difficili da trovare.