La metagenomica è la disciplina che si occupa dello studio di sequenze geniche ottenute direttamente dall’ambiente dove più microorganismi convivono, con l’obiettivo di caratterizzarne la diversità tassonomica. I software di classificazione tassonomica etichettano sequenze di DNA utilizzando come riferimento database contenenti informazioni genomiche. Esistono collezioni di dati genici specifici per particolari entità biologiche o database ad ampio spettro che raccolgono il DNA di diversi gruppi di microorganismi. La dimensione del database utilizzato può influenzare la validità delle classificazioni tassonomiche, sia dal punto di vista di disponibilità di memoria nel sistema, sia per il dettaglio delle sequenze presenti al suo interno. In questo studio viene analizzata la validità delle classificazioni tassonomiche di tre dataset: l'SRR1804065, contenente DNA umano, il CAMI2 Marine di origine marina ed infine un dataset simulato contenente sequenze genomiche di 10 virus e 40 batteri. Ogni dataset viene classificato attraverso il software Kraken2, affiancato dai maggiori database realizzati per quest'ultimo, tra i quali Standard, PlusPF e PlusPFP. Per poter valutare i risultati sono state misurate la sensitività, precisione ed F1-measure per ogni classificazione tassonomica effettuata, sia a livello di geni che di specie.
Classificazione tassonomica: come la dimensione dei database influenza la precisione con Kraken2
LAZZARO, LEONARDO
2021/2022
Abstract
La metagenomica è la disciplina che si occupa dello studio di sequenze geniche ottenute direttamente dall’ambiente dove più microorganismi convivono, con l’obiettivo di caratterizzarne la diversità tassonomica. I software di classificazione tassonomica etichettano sequenze di DNA utilizzando come riferimento database contenenti informazioni genomiche. Esistono collezioni di dati genici specifici per particolari entità biologiche o database ad ampio spettro che raccolgono il DNA di diversi gruppi di microorganismi. La dimensione del database utilizzato può influenzare la validità delle classificazioni tassonomiche, sia dal punto di vista di disponibilità di memoria nel sistema, sia per il dettaglio delle sequenze presenti al suo interno. In questo studio viene analizzata la validità delle classificazioni tassonomiche di tre dataset: l'SRR1804065, contenente DNA umano, il CAMI2 Marine di origine marina ed infine un dataset simulato contenente sequenze genomiche di 10 virus e 40 batteri. Ogni dataset viene classificato attraverso il software Kraken2, affiancato dai maggiori database realizzati per quest'ultimo, tra i quali Standard, PlusPF e PlusPFP. Per poter valutare i risultati sono state misurate la sensitività, precisione ed F1-measure per ogni classificazione tassonomica effettuata, sia a livello di geni che di specie.File | Dimensione | Formato | |
---|---|---|---|
Lazzaro_Leonardo.pdf
accesso aperto
Dimensione
1.55 MB
Formato
Adobe PDF
|
1.55 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/39010