The purpose of this thesis is to develop a system aimed at streamlining the search for information regarding rare diseases and genetic mutations to assist researchers at R&I Genetics. Currently, when researchers encounter rare genetic mutations, it is likely that they have never encountered them before and that these are not well-documented. This necessitates a lengthy research phase involving the review of numerous medical articles without any certainty of finding relevant information. Depending on the specific case, this can significantly increase the time required for diagnosis. The proposed solution is a chatbot-like interface that autonomously analyzes user queries, conducts searches in relevant literature, and subsequently processes the retrieved data to produce consistent and coherent responses to the questions posed. This system integrates the Retrieval-Augmented Generation (RAG) technique with the "Llama3.1" neural networks from the American company Meta AI and "Qwen2.5" from the Chinese company Alibaba Cloud, both of which are open-source models. However, it has been designed to be modular in terms of the large language model, allowing it to be easily replaced with future versions, thus ensuring a good lifespan for the system.

Lo scopo di questa tesi consiste nello sviluppo di un sistema per agilizzare la ricerca di informazioni riguardanti malattie e mutazioni genetiche rare per offrire un aiuto ai ricercatori presso R&I Genetics. Attualmente, quando i ricercatori si trovano di fronte a delle mutazioni genetiche rare, è probabile che non le abbiano mai viste prima, e che queste non siano molto documentate, ragione per cui è necessaria una lunga fase di ricerca che consiste nella lettura di numerosi articoli medici senza la certezza di trovare informazioni rilevanti e che, dipendendo dal caso specifico, può comportare un aumento non indifferente nel tempo richiesto per la diagnosi. La soluzione proposta consiste in un interfaccia del tipo chatbot che si occupi in modo autonomo dell'analisi delle richieste poste dagli utenti e effetui ricerche in letteratura rilevante, seguite poi da un'ulteriore fase di analisi per processare i dati raccolti e produrre una risposta consistente e coerente alla domanda posta. Questo sistema integra la tecnica di Retrieval-Augmented Generation (RAG) con le reti neurali "Llama3.1" dell'azienda americana Meta AI e "Qwen2.5" della cinese Alibaba Cloud, entrambi modelli open-source, ma è stato progettato per essere modulare sotto il punto di vista del large language model, in modo che questo sia facilmente sostituibile da versioni future, garantendone una buona prospettiva di vita.

Retrieval-Augmented Generation with Large Language Models for Genetic Counseling on Rare Diseases and Mutations

DA RE, LEONARDO
2024/2025

Abstract

The purpose of this thesis is to develop a system aimed at streamlining the search for information regarding rare diseases and genetic mutations to assist researchers at R&I Genetics. Currently, when researchers encounter rare genetic mutations, it is likely that they have never encountered them before and that these are not well-documented. This necessitates a lengthy research phase involving the review of numerous medical articles without any certainty of finding relevant information. Depending on the specific case, this can significantly increase the time required for diagnosis. The proposed solution is a chatbot-like interface that autonomously analyzes user queries, conducts searches in relevant literature, and subsequently processes the retrieved data to produce consistent and coherent responses to the questions posed. This system integrates the Retrieval-Augmented Generation (RAG) technique with the "Llama3.1" neural networks from the American company Meta AI and "Qwen2.5" from the Chinese company Alibaba Cloud, both of which are open-source models. However, it has been designed to be modular in terms of the large language model, allowing it to be easily replaced with future versions, thus ensuring a good lifespan for the system.
2024
Retrieval-Augmented Generation with Large Language Models for Genetic Counseling on Rare Diseases and Mutations
Lo scopo di questa tesi consiste nello sviluppo di un sistema per agilizzare la ricerca di informazioni riguardanti malattie e mutazioni genetiche rare per offrire un aiuto ai ricercatori presso R&I Genetics. Attualmente, quando i ricercatori si trovano di fronte a delle mutazioni genetiche rare, è probabile che non le abbiano mai viste prima, e che queste non siano molto documentate, ragione per cui è necessaria una lunga fase di ricerca che consiste nella lettura di numerosi articoli medici senza la certezza di trovare informazioni rilevanti e che, dipendendo dal caso specifico, può comportare un aumento non indifferente nel tempo richiesto per la diagnosi. La soluzione proposta consiste in un interfaccia del tipo chatbot che si occupi in modo autonomo dell'analisi delle richieste poste dagli utenti e effetui ricerche in letteratura rilevante, seguite poi da un'ulteriore fase di analisi per processare i dati raccolti e produrre una risposta consistente e coerente alla domanda posta. Questo sistema integra la tecnica di Retrieval-Augmented Generation (RAG) con le reti neurali "Llama3.1" dell'azienda americana Meta AI e "Qwen2.5" della cinese Alibaba Cloud, entrambi modelli open-source, ma è stato progettato per essere modulare sotto il punto di vista del large language model, in modo che questo sia facilmente sostituibile da versioni future, garantendone una buona prospettiva di vita.
Large Language Model
RAG
Genetic
Transformers
File in questo prodotto:
File Dimensione Formato  
Da_Re_Leonardo.pdf

accesso aperto

Dimensione 18.95 MB
Formato Adobe PDF
18.95 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/84560