L’RNA sequencing (RNA-­‐Seq) è una tecnica per l’analisi del trascrittoma e la sua quantificazione, basata sulle recenti tecnologie Next-­‐Generation Sequencing (NGS). Lo sviluppo tecnologico ha infatti permesso di ottenere piattaforme di sequenziamento che generano dati ad alto throughput e con costi molto inferiori rispetto ai sequenziatori tradizionali. La prima parte di questa tesi offre una panoramica sulle più diffuse piattaforme commerciali di sequenziamento NGS (454 Genome Sequencer di Roche, Genome Analyzer di Illumina, SOLiD di Applied Biosystems), valutandone le caratteristiche tecniche e le prestazioni. I dati grezzi che i sequenziatori permettono di ottenere sono le read, cioè sequenze che identificano l’ordine in cui si susseguono le basi azotate che compongono il gene. In un esperimento RNA-­‐Seq, l’espressione genica viene misurata in termini di count, cioè del numero di read mappate sui geni di un genoma o trascrittoma di riferimento. I count sono dunque somme di variabili aleatorie (l’assegnazione delle read a ciascun gene) e sono descrivibili tramite modelli statistici. I principali modelli utilizzati in letteratura sono il modello binomiale, il modello di Poisson e il modello Binomiale Negativo. La descrizione statistica dei dati di RNA-­‐Seq è oggetto di studio molto recente e non esiste ancora una descrizione comune. In questa tesi si è quindi cercato di organizzare le informazioni in un modello generale della distribuzione dei dati, stabilendo una notazione comune nella descrizione dei lavori dei diversi autori. Una delle più interessanti applicazioni di RNA-­‐Seq è l’analisi dell’espressione differenziale, cioè l’identificazione dei geni che presentano significative differenze del loro livello di espressione fra due o più condizioni sperimentali (interne o esterne alla cellula). In esperimenti RNA-­‐Seq, ciò significa valutare se le differenze osservate nei count delle diverse condizioni sperimentali siano o meno significative in senso statistico. Sono molti gli autori e i gruppi di ricerca che hanno sviluppato proposte di metodi di analisi differenziale, che implementano i modelli di distribuzione dei dati sopra citati. In questa tesi sono stati considerati i metodi DEGSeq, PoissonSeq (che implementano il modello di Poisson), edgeR e DESeq (che implementano il modello Binomiale Negativo). Ciascun metodo è stato testato su due data set pubblici valutandone le prestazioni in termini di precisione e sensitività. EdgeR è risultato il migliore, anche se tutti i diversi metodi hanno ottenuto risultati molto simili fra loro. Studi futuri con presenza di repliche biologiche potranno fornire indicazioni statisticamente più significative sulla bontà dei metodi

Confronto di metodi statistici per la misura dell'espressione differenziale in dati di RNA sequencing

Apolloni, Andrea
2012/2013

Abstract

L’RNA sequencing (RNA-­‐Seq) è una tecnica per l’analisi del trascrittoma e la sua quantificazione, basata sulle recenti tecnologie Next-­‐Generation Sequencing (NGS). Lo sviluppo tecnologico ha infatti permesso di ottenere piattaforme di sequenziamento che generano dati ad alto throughput e con costi molto inferiori rispetto ai sequenziatori tradizionali. La prima parte di questa tesi offre una panoramica sulle più diffuse piattaforme commerciali di sequenziamento NGS (454 Genome Sequencer di Roche, Genome Analyzer di Illumina, SOLiD di Applied Biosystems), valutandone le caratteristiche tecniche e le prestazioni. I dati grezzi che i sequenziatori permettono di ottenere sono le read, cioè sequenze che identificano l’ordine in cui si susseguono le basi azotate che compongono il gene. In un esperimento RNA-­‐Seq, l’espressione genica viene misurata in termini di count, cioè del numero di read mappate sui geni di un genoma o trascrittoma di riferimento. I count sono dunque somme di variabili aleatorie (l’assegnazione delle read a ciascun gene) e sono descrivibili tramite modelli statistici. I principali modelli utilizzati in letteratura sono il modello binomiale, il modello di Poisson e il modello Binomiale Negativo. La descrizione statistica dei dati di RNA-­‐Seq è oggetto di studio molto recente e non esiste ancora una descrizione comune. In questa tesi si è quindi cercato di organizzare le informazioni in un modello generale della distribuzione dei dati, stabilendo una notazione comune nella descrizione dei lavori dei diversi autori. Una delle più interessanti applicazioni di RNA-­‐Seq è l’analisi dell’espressione differenziale, cioè l’identificazione dei geni che presentano significative differenze del loro livello di espressione fra due o più condizioni sperimentali (interne o esterne alla cellula). In esperimenti RNA-­‐Seq, ciò significa valutare se le differenze osservate nei count delle diverse condizioni sperimentali siano o meno significative in senso statistico. Sono molti gli autori e i gruppi di ricerca che hanno sviluppato proposte di metodi di analisi differenziale, che implementano i modelli di distribuzione dei dati sopra citati. In questa tesi sono stati considerati i metodi DEGSeq, PoissonSeq (che implementano il modello di Poisson), edgeR e DESeq (che implementano il modello Binomiale Negativo). Ciascun metodo è stato testato su due data set pubblici valutandone le prestazioni in termini di precisione e sensitività. EdgeR è risultato il migliore, anche se tutti i diversi metodi hanno ottenuto risultati molto simili fra loro. Studi futuri con presenza di repliche biologiche potranno fornire indicazioni statisticamente più significative sulla bontà dei metodi
2012-03-13
86
RNA-Seq, RNA Sequencing, sequenziamento, genomica, trascrittoma, analisi differenziale
File in questo prodotto:
File Dimensione Formato  
Tesi_Andrea_Apolloni.pdf

accesso aperto

Dimensione 25.77 MB
Formato Adobe PDF
25.77 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/14959