High-throughput sequencing has enabled large-scale profiling of microbial communities across diverse environments, yet shotgun metagenomics—the gold standard for quantifying func- tional potential—remains costly for extensive or longitudinal studies. As a result, several com- putational tools infer functional profiles from 16S rRNA amplicon data by projecting taxa onto reference genomes to estimate gene content. However, the accuracy of these 16S-based approaches relative to shotgun metagenomics is only partially characterised, and a general, re- producible benchmarking framework is still lacking. In this thesis, I develop and apply a benchmarking pipeline to evaluate two widely used 16S- based functional prediction tools, PICRUSt2 and Tax4Fun2, against paired shotgun metage- nomic data. The framework includes a standardised QIIME 2 preprocessing workflow for 16S sequences, prediction of KEGG Orthologs (KOs) from amplicon data, harmonisation of shotgun-derived KO tables, and sample-wise comparisons using both rank-based and presence– absence metrics. As a concrete case study, the pipeline is applied to the Mendes rhizosphere dataset, which provides paired 16S rRNA and shotgun metagenomic sequencing for 26 soil samples. Agreement between predicted and observed KO profiles is assessed using Spearman correlation on relative abundances and Jaccard similarity on KO presence/absence. Across the 26 samples, PICRUSt2 achieved a median Spearman correlation of approxi- mately 0.79 and a median Jaccard index of approximately 0.80, whereas Tax4Fun2 reached median values of approximately 0.69 and 0.82, respectively. These results indicate that PI- CRUSt2 better captures KO abundance structure, while Tax4Fun2 more closely recovers KO repertoires. Overall, both tools reproduce broad functional patterns but cannot fully replace shotgun metagenomics when precise gene-level quantification is required. The benchmarking framework developed here is general, fully reproducible, and applicable to other microbiome datasets and functional inference tools beyond the soil case study analysed in this thesis.

Il sequenziamento ad alta resa ha reso possibile la caratterizzazione su larga scala delle comu- nità microbiche in ambienti diversi. Tuttavia, la metagenomica shotgun — considerata il gold standard per quantificare il potenziale funzionale — rimane costosa per studi estesi o longitu- dinali. Di conseguenza, sono stati sviluppati diversi strumenti computazionali che inferiscono profili funzionali dai dati 16S rRNA, proiettando i taxa su genomi di riferimento per stimare il contenuto genico. Tuttavia, l’accuratezza di questi approcci basati sul 16S rispetto ai dati shot- gun è solo parzialmente caratterizzata e manca ancora un framework di benchmarking generale e riproducibile. In questa tesi sviluppo e applico una pipeline di benchmarking per valutare due strumenti ampiamente utilizzati per la predizione funzionale basata sul 16S, PICRUSt2 e Tax4Fun2, con- frontandoli con dati metagenomici shotgun appaiati. Il framework comprende una workflow standardizzato in QIIME 2 per la preprocessazione delle sequenze 16S, la predizione degli Or- thologhi KEGG (KO) dai dati amplicon, l’armonizzazione delle tabelle KO ottenute dallo shot- gun e confronti campione-per-campione utilizzando metriche basate sulle abbondanze e sulla presenza/assenza. Come caso di studio concreto, la pipeline è applicata al dataset rizosferico di Mendes, che fornisce sequenziamento 16S rRNA e metagenomico shotgun appaiato per 26 campioni di suolo. L’accordo tra i profili funzionali predetti e quelli osservati viene valutato tramite la correlazione di Spearman sulle abbondanze relative e la similarità di Jaccard sulla pre- senza/assenza dei KO. Nel complesso dei 26 campioni, PICRUSt2 ha ottenuto una correlazione di Spearman me- diana di circa 0.79 e un indice di Jaccard di circa 0.80, mentre Tax4Fun2 ha raggiunto valori mediani di circa 0.69 e 0.82, rispettivamente. Questi risultati indicano che PICRUSt2 cat- tura meglio la struttura delle abbondanze dei KO, mentre Tax4Fun2 recupera un repertorio funzionale leggermente più ampio. Entrambi gli strumenti riproducono i pattern funzionali generali, ma non possono sostituire completamente la metagenomica shotgun quando è richi- esta un’accurata quantificazione a livello genico. Il framework di benchmarking sviluppato è generale, completamente riproducibile e applicabile ad altri dataset microbiomici e a ulteriori strumenti di inferenza funzionale oltre al caso di studio analizzato in questa tesi.

Inference of microbial genomic data: a benchmark of existing tools

SADAT, FARHAD
2024/2025

Abstract

High-throughput sequencing has enabled large-scale profiling of microbial communities across diverse environments, yet shotgun metagenomics—the gold standard for quantifying func- tional potential—remains costly for extensive or longitudinal studies. As a result, several com- putational tools infer functional profiles from 16S rRNA amplicon data by projecting taxa onto reference genomes to estimate gene content. However, the accuracy of these 16S-based approaches relative to shotgun metagenomics is only partially characterised, and a general, re- producible benchmarking framework is still lacking. In this thesis, I develop and apply a benchmarking pipeline to evaluate two widely used 16S- based functional prediction tools, PICRUSt2 and Tax4Fun2, against paired shotgun metage- nomic data. The framework includes a standardised QIIME 2 preprocessing workflow for 16S sequences, prediction of KEGG Orthologs (KOs) from amplicon data, harmonisation of shotgun-derived KO tables, and sample-wise comparisons using both rank-based and presence– absence metrics. As a concrete case study, the pipeline is applied to the Mendes rhizosphere dataset, which provides paired 16S rRNA and shotgun metagenomic sequencing for 26 soil samples. Agreement between predicted and observed KO profiles is assessed using Spearman correlation on relative abundances and Jaccard similarity on KO presence/absence. Across the 26 samples, PICRUSt2 achieved a median Spearman correlation of approxi- mately 0.79 and a median Jaccard index of approximately 0.80, whereas Tax4Fun2 reached median values of approximately 0.69 and 0.82, respectively. These results indicate that PI- CRUSt2 better captures KO abundance structure, while Tax4Fun2 more closely recovers KO repertoires. Overall, both tools reproduce broad functional patterns but cannot fully replace shotgun metagenomics when precise gene-level quantification is required. The benchmarking framework developed here is general, fully reproducible, and applicable to other microbiome datasets and functional inference tools beyond the soil case study analysed in this thesis.
2024
Inference of microbial genomic data: a benchmark of existing tools
Il sequenziamento ad alta resa ha reso possibile la caratterizzazione su larga scala delle comu- nità microbiche in ambienti diversi. Tuttavia, la metagenomica shotgun — considerata il gold standard per quantificare il potenziale funzionale — rimane costosa per studi estesi o longitu- dinali. Di conseguenza, sono stati sviluppati diversi strumenti computazionali che inferiscono profili funzionali dai dati 16S rRNA, proiettando i taxa su genomi di riferimento per stimare il contenuto genico. Tuttavia, l’accuratezza di questi approcci basati sul 16S rispetto ai dati shot- gun è solo parzialmente caratterizzata e manca ancora un framework di benchmarking generale e riproducibile. In questa tesi sviluppo e applico una pipeline di benchmarking per valutare due strumenti ampiamente utilizzati per la predizione funzionale basata sul 16S, PICRUSt2 e Tax4Fun2, con- frontandoli con dati metagenomici shotgun appaiati. Il framework comprende una workflow standardizzato in QIIME 2 per la preprocessazione delle sequenze 16S, la predizione degli Or- thologhi KEGG (KO) dai dati amplicon, l’armonizzazione delle tabelle KO ottenute dallo shot- gun e confronti campione-per-campione utilizzando metriche basate sulle abbondanze e sulla presenza/assenza. Come caso di studio concreto, la pipeline è applicata al dataset rizosferico di Mendes, che fornisce sequenziamento 16S rRNA e metagenomico shotgun appaiato per 26 campioni di suolo. L’accordo tra i profili funzionali predetti e quelli osservati viene valutato tramite la correlazione di Spearman sulle abbondanze relative e la similarità di Jaccard sulla pre- senza/assenza dei KO. Nel complesso dei 26 campioni, PICRUSt2 ha ottenuto una correlazione di Spearman me- diana di circa 0.79 e un indice di Jaccard di circa 0.80, mentre Tax4Fun2 ha raggiunto valori mediani di circa 0.69 e 0.82, rispettivamente. Questi risultati indicano che PICRUSt2 cat- tura meglio la struttura delle abbondanze dei KO, mentre Tax4Fun2 recupera un repertorio funzionale leggermente più ampio. Entrambi gli strumenti riproducono i pattern funzionali generali, ma non possono sostituire completamente la metagenomica shotgun quando è richi- esta un’accurata quantificazione a livello genico. Il framework di benchmarking sviluppato è generale, completamente riproducibile e applicabile ad altri dataset microbiomici e a ulteriori strumenti di inferenza funzionale oltre al caso di studio analizzato in questa tesi.
Microbial genomics
16S rRNA data
Metagenome inference
Benchmarking tools
File in questo prodotto:
File Dimensione Formato  
SADAT_FARHAD.pdf

embargo fino al 30/11/2028

Dimensione 3.82 MB
Formato Adobe PDF
3.82 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/99049