The amount of data produced by bioinformatics laboratories is increasing every year, with estimates reaching zettabytes by 2025. Efficient management of such output is therefore crucial for biological and bioinformatics research. This thesis explores and compares two distinct approaches to bioinformatics data compression: single compression and simultaneous compression. Specifically, it will study and analyze two compression software: Gzip, a general-purpose compression program, and GGCAT, a new, highly specialized compression program for genomic and biological data. While Gzip is widely used for its speed and scalability, GGCAT takes advantage of the specific features of bioinformatics data, such as the repetition of genomic sequences and the FASTA file format. The goal of this study is to compare the two approaches in terms of compression ratio, space saved, memory required, and execution time, highlighting the differences depending on the chosen software.

La quantità di dati prodotta dai laboratori bioinformatici cresce sempre più ogni anno, stimando per il 2025 ordini dei zettabytes. Risulta quindi cruciale per la ricerca biologica e bioinformatica una gestione efficiente di tali output. Questa tesi esplora e confronta due approcci distinti per la compressione di dati bioinformatici: la compressione singola e la compressione simultanea. In particolare verranno studiati e analizzati due software di compressione: Gzip, un programma di compressione general purpose, e GGCAT, un nuovo programma di compressione altamente specializzato per dati genomici e biologici. Se Gzip è altamente utilizzato per la sua velocità e scalabilità, GGCAT riesce a sfruttare le particolaritò dei dati bioinformatici come la ripetizione di sequenze genomiche e il formato dei file FASTA. L’obiettivo di questo studio è paragonare i due approcci in termini di tasso di compressione, spazio salvato, memoria richiesta e tempo di esecuzione, evidenziandone i cambiamenti a seconda del software scelto.

Compressione efficiente di k-mers sets: presentazione dei metodi e analisi comparativa

BELLESSO, BEATRICE
2023/2024

Abstract

The amount of data produced by bioinformatics laboratories is increasing every year, with estimates reaching zettabytes by 2025. Efficient management of such output is therefore crucial for biological and bioinformatics research. This thesis explores and compares two distinct approaches to bioinformatics data compression: single compression and simultaneous compression. Specifically, it will study and analyze two compression software: Gzip, a general-purpose compression program, and GGCAT, a new, highly specialized compression program for genomic and biological data. While Gzip is widely used for its speed and scalability, GGCAT takes advantage of the specific features of bioinformatics data, such as the repetition of genomic sequences and the FASTA file format. The goal of this study is to compare the two approaches in terms of compression ratio, space saved, memory required, and execution time, highlighting the differences depending on the chosen software.
2023
Efficient compression of k-mers sets: methods presentation and comparative analysis
La quantità di dati prodotta dai laboratori bioinformatici cresce sempre più ogni anno, stimando per il 2025 ordini dei zettabytes. Risulta quindi cruciale per la ricerca biologica e bioinformatica una gestione efficiente di tali output. Questa tesi esplora e confronta due approcci distinti per la compressione di dati bioinformatici: la compressione singola e la compressione simultanea. In particolare verranno studiati e analizzati due software di compressione: Gzip, un programma di compressione general purpose, e GGCAT, un nuovo programma di compressione altamente specializzato per dati genomici e biologici. Se Gzip è altamente utilizzato per la sua velocità e scalabilità, GGCAT riesce a sfruttare le particolaritò dei dati bioinformatici come la ripetizione di sequenze genomiche e il formato dei file FASTA. L’obiettivo di questo studio è paragonare i due approcci in termini di tasso di compressione, spazio salvato, memoria richiesta e tempo di esecuzione, evidenziandone i cambiamenti a seconda del software scelto.
compressione
k-mer
analisi
File in questo prodotto:
File Dimensione Formato  
Bellesso_Beatrice.pdf

accesso aperto

Dimensione 1.36 MB
Formato Adobe PDF
1.36 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/71108