Differential detection and differential expression in single-cell RNA-seq data

L'introduzione del sequenziamento a singola cellula del RNA, conoscituo anche come scRNA-seq, ha rivoluzionato gli studi di trascrittomica. Le precedenti tecnologie fornivano il numero di geni espressi per ogni campione senza andare a considerare in quale specifica cellula compare ogni gene. Questa nuova tecnologia ci fornisce invece le infromazioni relative al numero di geni presenti in ciascuna cellula in ogni campione mostrando quindi l'eterogeneità del trascritto a livello di singola cellula evidenziando informazioni che i semplici dati RNA-seq non fornirebbero. Tuttavia il scRNA-seq produce una quantità maggiore di dati rispetto al sequenziamento di massa e questo porta a nuove sfide sia computazionali che interpretative. In particolare i dati a singola cellula sono caratterizzati da una matrice di conteggio con un numero molto elevato di zeri; questi possono essere dovuti sia a una varaiabilità di tipo tecnico che biologico. I principali metodi considerano gli zeri come un problema da risolvere, si ritiene invece che questi siano molto importanti e si vuole andare a investigare se la loro mera presenza o assenza possa fornire informazioni rilevanti sul fenomeno di interesse. Si confrontano quindi i risultati ottenuti con i classici metodi che analizzano se i geni sono o meno differenzialmente espressi con dei metodi che considerano se un gene è stato rilevato o meno. Per l'analisi di presenza/assenza viene utilizzata una regressione binomiale per ogni gene ed alcune sue varianti come ad esempio la quasi-binomiale, una binomiale con offset, una quasi-binomiale in cui il paramtro di dispersione viene schiacciato utilizzando un approccio di tipo bayesiano empirico e il metodo edgeR sui conteggi dicotomizzati. Un ulteriore problematica dei dati scRNA-seq è costituita dal fatto che i vari metodi assumono indipendenza delle osservazioni; questa assunzione non viene rispettata in quanto i conteggi dei geni delle varie cellule appartenti a un soggetto risultano dipendenti tra loro. Per ovviare a questo problema si procede aggregando i dati appartenenti allo stesso soggetto. Bisogna quindi verificare quanto sensibili siano i metodi di aggregazione nel rilevare le differenze tra popolazioni.

Differential detection and differential expression in single-cell RNA-seq data

PERIN, LAURA

2022/2023

Abstract

L'introduzione del sequenziamento a singola cellula del RNA, conoscituo anche come scRNA-seq, ha rivoluzionato gli studi di trascrittomica. Le precedenti tecnologie fornivano il numero di geni espressi per ogni campione senza andare a considerare in quale specifica cellula compare ogni gene. Questa nuova tecnologia ci fornisce invece le infromazioni relative al numero di geni presenti in ciascuna cellula in ogni campione mostrando quindi l'eterogeneità del trascritto a livello di singola cellula evidenziando informazioni che i semplici dati RNA-seq non fornirebbero. Tuttavia il scRNA-seq produce una quantità maggiore di dati rispetto al sequenziamento di massa e questo porta a nuove sfide sia computazionali che interpretative. In particolare i dati a singola cellula sono caratterizzati da una matrice di conteggio con un numero molto elevato di zeri; questi possono essere dovuti sia a una varaiabilità di tipo tecnico che biologico. I principali metodi considerano gli zeri come un problema da risolvere, si ritiene invece che questi siano molto importanti e si vuole andare a investigare se la loro mera presenza o assenza possa fornire informazioni rilevanti sul fenomeno di interesse. Si confrontano quindi i risultati ottenuti con i classici metodi che analizzano se i geni sono o meno differenzialmente espressi con dei metodi che considerano se un gene è stato rilevato o meno. Per l'analisi di presenza/assenza viene utilizzata una regressione binomiale per ogni gene ed alcune sue varianti come ad esempio la quasi-binomiale, una binomiale con offset, una quasi-binomiale in cui il paramtro di dispersione viene schiacciato utilizzando un approccio di tipo bayesiano empirico e il metodo edgeR sui conteggi dicotomizzati. Un ulteriore problematica dei dati scRNA-seq è costituita dal fatto che i vari metodi assumono indipendenza delle osservazioni; questa assunzione non viene rispettata in quanto i conteggi dei geni delle varie cellule appartenti a un soggetto risultano dipendenti tra loro. Per ovviare a questo problema si procede aggregando i dati appartenenti allo stesso soggetto. Bisogna quindi verificare quanto sensibili siano i metodi di aggregazione nel rilevare le differenze tra popolazioni.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Dipartimento di Scienze Statistiche
			
	Corso di studio
	
				SCIENZE STATISTICHE Laurea Magistrale (D.M. 270/2004)
			
	Anno Accademico
	
				2022
			
	Titolo inglese
	
				Differential detection and differential expression in single-cell RNA-seq data
			
	Parola chiave
	
				single-cell RNA-seq
Biostatistica
edgeR
			
	Relatore
	
				RISSO, DAVIDE
			
	Appare nelle tipologie:
	
				Lauree magistrali

File in questo prodotto:

File	Dimensione	Formato
Perin_Laura.pdf accesso aperto Dimensione 1.55 MB Formato Adobe PDF Visualizza/Apri	1.55 MB	Adobe PDF	Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/44781