Il sequenziamento ad alto rendimento dell’RNA (RNA-seq), basato sulle tecnologie di seconda generazione NGS (Next Generation Sequencing), è una tecnica per l’analisi e la quantificazione di RNA espresso. A differenza di altri metodi di profilazione dell’espressione genica come i microarray basati sull’ibridazione del DNA, che comportano il sondaggio per sequenze di RNA note, l’RNA-seq può profilare l’espressione genica da organismi con genomi non ancora sequenziati. La maggior parte dei dati di RNA-seq sono ottenuti con la tecnologia “sequencing by synthesis” (SBS) commercializzata da Illumina. Una delle principali applicazioni dell’RNA-seq è l’analisi dell’espressione genica differenziale, ovvero l’identificazione dei geni differenzialmente espressi, quei geni che presentano una differenza significativa del loro livello di espressione fra i due gruppi di condizioni biologiche. In questa tesi si vogliono andare a confrontare sotto vari aspetti, mediante specifiche simulazioni dei dati di RNA-seq, metodi parametrici e non per l’analisi dell’espressione differenziale. In questo ambito, sono stati sviluppati diversi pacchetti software in R per questi metodi. Nel presente elaborato sono stati considerati i seguenti metodi parametrici: edgeR, DESeq2, limma-voom, EBSeq; e non parametrici: SAMseq, NOISeq, dearseq, Wilcoxon rank-sum test. Ciascun metodo è stato testato sui dati simulati da tre modelli generati dalle distribuzioni Poisson, Binomiale Negativa e Quasi-Poisson. Tuttavia questo può risultare restrittivo, poiché in molti casi i dati vengono generati dalla stessa distribuzione su cui si basano i metodi medesimi. Per ovviare a questa limitazione, i dati vengono simulati anche tramite un approccio non parametrico SimSeq, senza fare alcuna ipotesi sulla vera distribuzione dei dati. Chiaramente, si parla di dati simulati perché sui dati reali, non esiste una conoscenza di base per confrontare i metodi. Inoltre, oltre alla tecnica di simulazione, vengono considerate diverse situazioni di generazione dei dati, che variano per la numerosità campionaria sia bilanciata che sbilanciata tra le due condizioni, e per la percentuale di geni differenzialmente espressi al variare dei geni sovra- e sotto-espressi. L’obiettivo è capire se in letteratura esistono dei metodi che siano ottimali in tutte le condizioni sperimentali con un controllo del FDR affidabile. Si è visto che non c'è nessun metodo che risulta uniformemente migliore, a seconda delle differenti situazioni ci sono dei metodi che funzionano meglio e altri peggio.

Confronto tra metodi parametrici e non parametrici per l'espressione differenziale di dati RNA-seq

DAL MONTE, MARINA
2022/2023

Abstract

Il sequenziamento ad alto rendimento dell’RNA (RNA-seq), basato sulle tecnologie di seconda generazione NGS (Next Generation Sequencing), è una tecnica per l’analisi e la quantificazione di RNA espresso. A differenza di altri metodi di profilazione dell’espressione genica come i microarray basati sull’ibridazione del DNA, che comportano il sondaggio per sequenze di RNA note, l’RNA-seq può profilare l’espressione genica da organismi con genomi non ancora sequenziati. La maggior parte dei dati di RNA-seq sono ottenuti con la tecnologia “sequencing by synthesis” (SBS) commercializzata da Illumina. Una delle principali applicazioni dell’RNA-seq è l’analisi dell’espressione genica differenziale, ovvero l’identificazione dei geni differenzialmente espressi, quei geni che presentano una differenza significativa del loro livello di espressione fra i due gruppi di condizioni biologiche. In questa tesi si vogliono andare a confrontare sotto vari aspetti, mediante specifiche simulazioni dei dati di RNA-seq, metodi parametrici e non per l’analisi dell’espressione differenziale. In questo ambito, sono stati sviluppati diversi pacchetti software in R per questi metodi. Nel presente elaborato sono stati considerati i seguenti metodi parametrici: edgeR, DESeq2, limma-voom, EBSeq; e non parametrici: SAMseq, NOISeq, dearseq, Wilcoxon rank-sum test. Ciascun metodo è stato testato sui dati simulati da tre modelli generati dalle distribuzioni Poisson, Binomiale Negativa e Quasi-Poisson. Tuttavia questo può risultare restrittivo, poiché in molti casi i dati vengono generati dalla stessa distribuzione su cui si basano i metodi medesimi. Per ovviare a questa limitazione, i dati vengono simulati anche tramite un approccio non parametrico SimSeq, senza fare alcuna ipotesi sulla vera distribuzione dei dati. Chiaramente, si parla di dati simulati perché sui dati reali, non esiste una conoscenza di base per confrontare i metodi. Inoltre, oltre alla tecnica di simulazione, vengono considerate diverse situazioni di generazione dei dati, che variano per la numerosità campionaria sia bilanciata che sbilanciata tra le due condizioni, e per la percentuale di geni differenzialmente espressi al variare dei geni sovra- e sotto-espressi. L’obiettivo è capire se in letteratura esistono dei metodi che siano ottimali in tutte le condizioni sperimentali con un controllo del FDR affidabile. Si è visto che non c'è nessun metodo che risulta uniformemente migliore, a seconda delle differenti situazioni ci sono dei metodi che funzionano meglio e altri peggio.
2022
Comparison of parametric and nonparametric methods for differential expression of RNA-seq data
RNA-seq
DGE analysis
Biostatistica
confronto metodi
File in questo prodotto:
File Dimensione Formato  
Dal Monte Marina.pdf

accesso riservato

Dimensione 4.75 MB
Formato Adobe PDF
4.75 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/49954