The increase in the size of reference genomic databases represents a crucial challenge for taxonomic classification tools, such as the Kraken 2 software. It uses k-mers (short DNA subsequences) to associate the analyzed data with their common ancestor in the taxonomic tree. The choice of database is crucial for the accuracy and sensitivity of classifications, as a more comprehensive database increases the likelihood of containing the necessary k-mers. Several reference digital archives are available, including Standard, PlusPF, and PlusPFP, each with specific advantages based on the study's focus. However, the increase in the size of these databases leads to greater imprecision for the classification software, as well as increased memory usage and processing time. Kraken 2 implements optimizations to mitigate these issues, but the computational requirements remain significant. This study explores the impact of database size and choice on Kraken 2's performance, providing recommendations to optimize taxonomic classification in various metagenomic research contexts.
L'aumento delle dimensioni dei database genomici di riferimento rappresenta una sfida cruciale per gli strumenti di classificazione tassonomica, come il software Kraken 2. Esso utilizza k-mer (brevi sottosequenze di DNA) per associare i dati analizzati al loro antenato comune nell'albero tassonomico. La scelta del database è determinante per l'accuratezza e la sensibilità delle classificazioni, poiché un database più completo aumenta la probabilità di contenere i k-mer necessari. Sono disponibili diversi archivi digitali di riferimenti, tra cui Standard, PlusPF e PlusPFP, ciascuno con vantaggi specifici in base al focus dello studio. Tuttavia, l'incremento delle dimensioni di questi database comporta maggiore imprecisione per il software di classificazione, oltre ad un aumento dell'uso di memoria e del tempo di elaborazione. Kraken 2 implementa ottimizzazioni per mitigare questi problemi, ma i requisiti computazionali rimangono significativi. Questo studio esplora l'impatto delle dimensioni e della scelta del database sulle prestazioni di Kraken 2, fornendo raccomandazioni per ottimizzare la classificazione tassonomica in diversi contesti di ricerca metagenomica.
L'evoluzione dei database di riferimenti e il suo impatto sulla classificazione tassonomica: analisi critica di Kraken 2
FERRO, RICCARDO
2024/2025
Abstract
The increase in the size of reference genomic databases represents a crucial challenge for taxonomic classification tools, such as the Kraken 2 software. It uses k-mers (short DNA subsequences) to associate the analyzed data with their common ancestor in the taxonomic tree. The choice of database is crucial for the accuracy and sensitivity of classifications, as a more comprehensive database increases the likelihood of containing the necessary k-mers. Several reference digital archives are available, including Standard, PlusPF, and PlusPFP, each with specific advantages based on the study's focus. However, the increase in the size of these databases leads to greater imprecision for the classification software, as well as increased memory usage and processing time. Kraken 2 implements optimizations to mitigate these issues, but the computational requirements remain significant. This study explores the impact of database size and choice on Kraken 2's performance, providing recommendations to optimize taxonomic classification in various metagenomic research contexts.File | Dimensione | Formato | |
---|---|---|---|
Ferro_Riccardo.pdf
accesso aperto
Dimensione
2.38 MB
Formato
Adobe PDF
|
2.38 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/82596