L'introduzione del sequenziamento a singola cellula del RNA, conoscituo anche come scRNA-seq, ha rivoluzionato gli studi di trascrittomica. Le precedenti tecnologie fornivano il numero di geni espressi per ogni campione senza andare a considerare in quale specifica cellula compare ogni gene. Questa nuova tecnologia ci fornisce invece le infromazioni relative al numero di geni presenti in ciascuna cellula in ogni campione mostrando quindi l'eterogeneità del trascritto a livello di singola cellula evidenziando informazioni che i semplici dati RNA-seq non fornirebbero. Tuttavia il scRNA-seq produce una quantità maggiore di dati rispetto al sequenziamento di massa e questo porta a nuove sfide sia computazionali che interpretative. In particolare i dati a singola cellula sono caratterizzati da una matrice di conteggio con un numero molto elevato di zeri; questi possono essere dovuti sia a una varaiabilità di tipo tecnico che biologico. I principali metodi considerano gli zeri come un problema da risolvere, si ritiene invece che questi siano molto importanti e si vuole andare a investigare se la loro mera presenza o assenza possa fornire informazioni rilevanti sul fenomeno di interesse. Si confrontano quindi i risultati ottenuti con i classici metodi che analizzano se i geni sono o meno differenzialmente espressi con dei metodi che considerano se un gene è stato rilevato o meno. Per l'analisi di presenza/assenza viene utilizzata una regressione binomiale per ogni gene ed alcune sue varianti come ad esempio la quasi-binomiale, una binomiale con offset, una quasi-binomiale in cui il paramtro di dispersione viene schiacciato utilizzando un approccio di tipo bayesiano empirico e il metodo edgeR sui conteggi dicotomizzati. Un ulteriore problematica dei dati scRNA-seq è costituita dal fatto che i vari metodi assumono indipendenza delle osservazioni; questa assunzione non viene rispettata in quanto i conteggi dei geni delle varie cellule appartenti a un soggetto risultano dipendenti tra loro. Per ovviare a questo problema si procede aggregando i dati appartenenti allo stesso soggetto. Bisogna quindi verificare quanto sensibili siano i metodi di aggregazione nel rilevare le differenze tra popolazioni.

Differential detection and differential expression in single-cell RNA-seq data

PERIN, LAURA
2022/2023

Abstract

L'introduzione del sequenziamento a singola cellula del RNA, conoscituo anche come scRNA-seq, ha rivoluzionato gli studi di trascrittomica. Le precedenti tecnologie fornivano il numero di geni espressi per ogni campione senza andare a considerare in quale specifica cellula compare ogni gene. Questa nuova tecnologia ci fornisce invece le infromazioni relative al numero di geni presenti in ciascuna cellula in ogni campione mostrando quindi l'eterogeneità del trascritto a livello di singola cellula evidenziando informazioni che i semplici dati RNA-seq non fornirebbero. Tuttavia il scRNA-seq produce una quantità maggiore di dati rispetto al sequenziamento di massa e questo porta a nuove sfide sia computazionali che interpretative. In particolare i dati a singola cellula sono caratterizzati da una matrice di conteggio con un numero molto elevato di zeri; questi possono essere dovuti sia a una varaiabilità di tipo tecnico che biologico. I principali metodi considerano gli zeri come un problema da risolvere, si ritiene invece che questi siano molto importanti e si vuole andare a investigare se la loro mera presenza o assenza possa fornire informazioni rilevanti sul fenomeno di interesse. Si confrontano quindi i risultati ottenuti con i classici metodi che analizzano se i geni sono o meno differenzialmente espressi con dei metodi che considerano se un gene è stato rilevato o meno. Per l'analisi di presenza/assenza viene utilizzata una regressione binomiale per ogni gene ed alcune sue varianti come ad esempio la quasi-binomiale, una binomiale con offset, una quasi-binomiale in cui il paramtro di dispersione viene schiacciato utilizzando un approccio di tipo bayesiano empirico e il metodo edgeR sui conteggi dicotomizzati. Un ulteriore problematica dei dati scRNA-seq è costituita dal fatto che i vari metodi assumono indipendenza delle osservazioni; questa assunzione non viene rispettata in quanto i conteggi dei geni delle varie cellule appartenti a un soggetto risultano dipendenti tra loro. Per ovviare a questo problema si procede aggregando i dati appartenenti allo stesso soggetto. Bisogna quindi verificare quanto sensibili siano i metodi di aggregazione nel rilevare le differenze tra popolazioni.
2022
Differential detection and differential expression in single-cell RNA-seq data
single-cell RNA-seq
Biostatistica
edgeR
File in questo prodotto:
File Dimensione Formato  
Perin_Laura.pdf

accesso aperto

Dimensione 1.55 MB
Formato Adobe PDF
1.55 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/44781