The gut microbiota is characterized by microbes and has a fundamental role in human and animal health, so much so that little changes in gut microbiota can lead to some serious illnesses. Through the years, different techniques were developed to analyze gut microbiota but the most important are the ones belonging to the Next Generation Sequencing. In this work two different techniques of sequencing have been taken into consideration: 16s Amplicon Sequencing and Whole Genome Shotgun Sequencing (WGS). The first method, the most economic one, allows to quantify the presence of different taxonomic categories in one sample; the second one, which is ten times more expensive, instead allows to quantify not only the presence of different bacteria but also the presence of the various genes thus their potential functionality. With this dissertation I evaluated different tools to make inferences on the functional profile of gut microbiota starting from 16s data, and then compare the results with the ones obtained directly from WGS using nine different datasets, real and simulated. The tools taken in consideration for this analysis are: PanFP, PICRUSt2 and Tax4Fun2. The comparison is made using different metrics, such as Spearman’s correlation, Bray-Curtis Index, Balanced Accuracy, Precision, Recall and F_1_score, and different techniques, such as Principal Coordinate Analysis (PCoA) and Clustering. The best tool to make inferences on the functional profile, starting from 16s data, which are most similar to the ones obtained by WGS, appears to be PICRUSt2 for 7 out of 9 datasets considered. Specificly, these tools are useful to better quantify the presence/absence of genes than the abundance of them.

Il microbiota intestinale, ovvero l’insieme dei microbi presenti all’interno dell’intestino, ha un ruolo fondamentale per quel che riguarda la salute di uomini e animali, al punto che alterazioni del suo equilibrio possono influenzare lo sviluppo di diverse malattie. Negli anni sono state sviluppate diverse tecniche per la caratterizzazione del microbiota; in particolare hanno trovato vasta applicazione quelle basate sul “Next Generation Sequencing” ossia sui sequenziatori genici di nuova generazione. All’interno di questo lavoro di tesi sono stati presi in considerazione due metodi di sequenziamento ovvero il 16S rRNA Amplicon Sequencing e poi il Whole Genome Shotgun Sequencing (WGS). Il primo metodo, più economico, consente di quantificare seppur in maniera relativa, la presenza delle diverse categorie tassonomiche nel campione; il secondo metodo, circa 10 volte più costoso, consente di quantificare, non solo la presenza di diversi batteri, ma anche la presenza dei diversi geni nei genomi batterici, e quindi la loro potenzialità in termini di funzioni che possono svolgere. In questa tesi ho valutato diversi metodi per l’inferenza del potenziale funzionale, a partire da dati 16s, per poi comparare i risultati con quelli che si ottengono direttamente da dati WGS su 9 diversi dataset, reali e simulati. I tool che sono stati considerati per questa analisi sono PICRUSt2, PanFP e Tax4Fun2. I confronti poi sono stati effettuati utilizzando diverse metriche come correlazione di Spearman, indice di Bray-Curtis, Balanced Accuracy, Precision, Recall e F_1_score e diverse tecniche quali Principal Coordinate Analysis (PCoA) e Clustering. Il tool migliore, che permette di ottenere una predizione del profilo funzionale che, partendo dal dato 16S, si avvicina al dato WGS, sembra essere PICRUSt2 per 7 dei 9 dataset presi in considerazione. In particolare, se non a quantificare con esattezza la presenza dei diversi geni, questi tool sembrano una buona risorsa per l’analisi della presenza/assenza degli stessi.

Inference of functional potential of microbiota from 16s sequencing data

SPROCATTI, MATTEO
2022/2023

Abstract

The gut microbiota is characterized by microbes and has a fundamental role in human and animal health, so much so that little changes in gut microbiota can lead to some serious illnesses. Through the years, different techniques were developed to analyze gut microbiota but the most important are the ones belonging to the Next Generation Sequencing. In this work two different techniques of sequencing have been taken into consideration: 16s Amplicon Sequencing and Whole Genome Shotgun Sequencing (WGS). The first method, the most economic one, allows to quantify the presence of different taxonomic categories in one sample; the second one, which is ten times more expensive, instead allows to quantify not only the presence of different bacteria but also the presence of the various genes thus their potential functionality. With this dissertation I evaluated different tools to make inferences on the functional profile of gut microbiota starting from 16s data, and then compare the results with the ones obtained directly from WGS using nine different datasets, real and simulated. The tools taken in consideration for this analysis are: PanFP, PICRUSt2 and Tax4Fun2. The comparison is made using different metrics, such as Spearman’s correlation, Bray-Curtis Index, Balanced Accuracy, Precision, Recall and F_1_score, and different techniques, such as Principal Coordinate Analysis (PCoA) and Clustering. The best tool to make inferences on the functional profile, starting from 16s data, which are most similar to the ones obtained by WGS, appears to be PICRUSt2 for 7 out of 9 datasets considered. Specificly, these tools are useful to better quantify the presence/absence of genes than the abundance of them.
2022
Inference of functional potential of microbiota from 16s sequencing data
Il microbiota intestinale, ovvero l’insieme dei microbi presenti all’interno dell’intestino, ha un ruolo fondamentale per quel che riguarda la salute di uomini e animali, al punto che alterazioni del suo equilibrio possono influenzare lo sviluppo di diverse malattie. Negli anni sono state sviluppate diverse tecniche per la caratterizzazione del microbiota; in particolare hanno trovato vasta applicazione quelle basate sul “Next Generation Sequencing” ossia sui sequenziatori genici di nuova generazione. All’interno di questo lavoro di tesi sono stati presi in considerazione due metodi di sequenziamento ovvero il 16S rRNA Amplicon Sequencing e poi il Whole Genome Shotgun Sequencing (WGS). Il primo metodo, più economico, consente di quantificare seppur in maniera relativa, la presenza delle diverse categorie tassonomiche nel campione; il secondo metodo, circa 10 volte più costoso, consente di quantificare, non solo la presenza di diversi batteri, ma anche la presenza dei diversi geni nei genomi batterici, e quindi la loro potenzialità in termini di funzioni che possono svolgere. In questa tesi ho valutato diversi metodi per l’inferenza del potenziale funzionale, a partire da dati 16s, per poi comparare i risultati con quelli che si ottengono direttamente da dati WGS su 9 diversi dataset, reali e simulati. I tool che sono stati considerati per questa analisi sono PICRUSt2, PanFP e Tax4Fun2. I confronti poi sono stati effettuati utilizzando diverse metriche come correlazione di Spearman, indice di Bray-Curtis, Balanced Accuracy, Precision, Recall e F_1_score e diverse tecniche quali Principal Coordinate Analysis (PCoA) e Clustering. Il tool migliore, che permette di ottenere una predizione del profilo funzionale che, partendo dal dato 16S, si avvicina al dato WGS, sembra essere PICRUSt2 per 7 dei 9 dataset presi in considerazione. In particolare, se non a quantificare con esattezza la presenza dei diversi geni, questi tool sembrano una buona risorsa per l’analisi della presenza/assenza degli stessi.
Inference
Functional Potential
Microbiota
16s
File in questo prodotto:
File Dimensione Formato  
Tesi completa defintiva da caricare.pdf

accesso aperto

Dimensione 3.69 MB
Formato Adobe PDF
3.69 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/46928