La metagenomica è la disciplina che si occupa dello studio di sequenze geniche ottenute direttamente dall’ambiente dove più microorganismi convivono, con l’obiettivo di caratterizzarne la diversità tassonomica. I software di classificazione tassonomica etichettano sequenze di DNA utilizzando come riferimento database contenenti informazioni genomiche. Esistono collezioni di dati genici specifici per particolari entità biologiche o database ad ampio spettro che raccolgono il DNA di diversi gruppi di microorganismi. La dimensione del database utilizzato può influenzare la validità delle classificazioni tassonomiche, sia dal punto di vista di disponibilità di memoria nel sistema, sia per il dettaglio delle sequenze presenti al suo interno. In questo studio viene analizzata la validità delle classificazioni tassonomiche di tre dataset: l'SRR1804065, contenente DNA umano, il CAMI2 Marine di origine marina ed infine un dataset simulato contenente sequenze genomiche di 10 virus e 40 batteri. Ogni dataset viene classificato attraverso il software Kraken2, affiancato dai maggiori database realizzati per quest'ultimo, tra i quali Standard, PlusPF e PlusPFP. Per poter valutare i risultati sono state misurate la sensitività, precisione ed F1-measure per ogni classificazione tassonomica effettuata, sia a livello di geni che di specie.

Classificazione tassonomica: come la dimensione dei database influenza la precisione con Kraken2

LAZZARO, LEONARDO
2021/2022

Abstract

La metagenomica è la disciplina che si occupa dello studio di sequenze geniche ottenute direttamente dall’ambiente dove più microorganismi convivono, con l’obiettivo di caratterizzarne la diversità tassonomica. I software di classificazione tassonomica etichettano sequenze di DNA utilizzando come riferimento database contenenti informazioni genomiche. Esistono collezioni di dati genici specifici per particolari entità biologiche o database ad ampio spettro che raccolgono il DNA di diversi gruppi di microorganismi. La dimensione del database utilizzato può influenzare la validità delle classificazioni tassonomiche, sia dal punto di vista di disponibilità di memoria nel sistema, sia per il dettaglio delle sequenze presenti al suo interno. In questo studio viene analizzata la validità delle classificazioni tassonomiche di tre dataset: l'SRR1804065, contenente DNA umano, il CAMI2 Marine di origine marina ed infine un dataset simulato contenente sequenze genomiche di 10 virus e 40 batteri. Ogni dataset viene classificato attraverso il software Kraken2, affiancato dai maggiori database realizzati per quest'ultimo, tra i quali Standard, PlusPF e PlusPFP. Per poter valutare i risultati sono state misurate la sensitività, precisione ed F1-measure per ogni classificazione tassonomica effettuata, sia a livello di geni che di specie.
2021
Taxonomic classification: how database size affects accuracy with Kraken2
Metagenomica
Kraken2
Classificazione
Database
Precisione
File in questo prodotto:
File Dimensione Formato  
Lazzaro_Leonardo.pdf

accesso aperto

Dimensione 1.55 MB
Formato Adobe PDF
1.55 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/39010