Stima strutturale in modelli grafici gaussiani per l'identificazione di geni disregolati

Questo lavoro di tesi affronta il problema dell’identificazione dei geni primariamente responsabili di processi di disregolazione, distinguendoli da quelli che manifestano una risposta secondaria. A tal fine viene adottato il metodo SourceSet, uno strumento specificamente progettato per individuare le sorgenti primarie di perturbazione in reti geniche. Le interazioni tra geni vengono modellizzate mediante modelli grafici gaussiani, che consentono di rappresentare le dipendenze condizionali tra variabili e di isolare connessioni realmente significative all’interno di reti complesse. L’analisi è stata condotta considerando due scenari distinti: uno in cui la struttura del grafo è nota a priori ed uno in cui essa viene stimata dai dati tramite il graphical lasso, con selezione del parametro di regolarizzazione basata sul criterio EBIC. Per ridurre rischi di sovrastima delle prestazioni è stata inoltre valutata una procedura stima–verifica, che separa i dati in due sottoinsiemi indipendenti per la fase di ricostruzione e di test. La valutazione del metodo è stata effettuata inizialmente su dati simulati, introducendo perturbazioni controllate a livello di nodi e archi e successivamente su dati reali di espressione genica (dataset GSE19114). I risultati mostrano che, in presenza di una struttura nota, SourceSet raggiunge un’elevata sensibilità nell’individuazione dei geni primariamente disregolati, a costo però di un numero consistente di falsi positivi. Al contrario, quando la struttura è stimata dai dati, si osserva un aumento della specificità e una riduzione degli errori, accompagnati però da una perdita parziale di potenza inferenziale. La procedura stima–verifica non ha evidenziato vantaggi significativi, risultando penalizzata soprattutto in condizioni di campioni ridotti. Nel complesso, lo studio evidenzia come la qualità della stima strutturale giochi un ruolo cruciale nell’equilibrio tra sensibilità e precisione del metodo SourceSet. Nessuno dei due approcci, grafo noto o stimato, risulta universalmente preferibile, suggerendo la necessità di strategie ibride che integrino conoscenza biologica predefinita e informazione empirica derivante dai dati.

Stima strutturale in modelli grafici gaussiani per l'identificazione di geni disregolati

POLLINI, COSTANZA

2024/2025

Abstract

Questo lavoro di tesi affronta il problema dell’identificazione dei geni primariamente responsabili di processi di disregolazione, distinguendoli da quelli che manifestano una risposta secondaria. A tal fine viene adottato il metodo SourceSet, uno strumento specificamente progettato per individuare le sorgenti primarie di perturbazione in reti geniche. Le interazioni tra geni vengono modellizzate mediante modelli grafici gaussiani, che consentono di rappresentare le dipendenze condizionali tra variabili e di isolare connessioni realmente significative all’interno di reti complesse. L’analisi è stata condotta considerando due scenari distinti: uno in cui la struttura del grafo è nota a priori ed uno in cui essa viene stimata dai dati tramite il graphical lasso, con selezione del parametro di regolarizzazione basata sul criterio EBIC. Per ridurre rischi di sovrastima delle prestazioni è stata inoltre valutata una procedura stima–verifica, che separa i dati in due sottoinsiemi indipendenti per la fase di ricostruzione e di test. La valutazione del metodo è stata effettuata inizialmente su dati simulati, introducendo perturbazioni controllate a livello di nodi e archi e successivamente su dati reali di espressione genica (dataset GSE19114). I risultati mostrano che, in presenza di una struttura nota, SourceSet raggiunge un’elevata sensibilità nell’individuazione dei geni primariamente disregolati, a costo però di un numero consistente di falsi positivi. Al contrario, quando la struttura è stimata dai dati, si osserva un aumento della specificità e una riduzione degli errori, accompagnati però da una perdita parziale di potenza inferenziale. La procedura stima–verifica non ha evidenziato vantaggi significativi, risultando penalizzata soprattutto in condizioni di campioni ridotti. Nel complesso, lo studio evidenzia come la qualità della stima strutturale giochi un ruolo cruciale nell’equilibrio tra sensibilità e precisione del metodo SourceSet. Nessuno dei due approcci, grafo noto o stimato, risulta universalmente preferibile, suggerendo la necessità di strategie ibride che integrino conoscenza biologica predefinita e informazione empirica derivante dai dati.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Dipartimento di Scienze Statistiche
			
	Corso di studio
	
				SCIENZE STATISTICHE Laurea Magistrale (D.M. 270/2004)
			
	Anno Accademico
	
				2024
			
	Titolo inglese
	
				Structural estimation in Gaussian graphical models for the identification of dysregulation
			
	Parola chiave
	
				modelli gaussiani
espressioni genica
disregolazione
primaria
			
	Relatore
	
				RISSO, DAVIDE
			
	Appare nelle tipologie:
	
				Lauree magistrali

File in questo prodotto:

File	Dimensione	Formato
Pollini_Costanza.pdf accesso aperto Dimensione 3.18 MB Formato Adobe PDF Visualizza/Apri	3.18 MB	Adobe PDF	Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/93039