Questo lavoro di tesi affronta il problema dell’identificazione dei geni primariamente responsabili di processi di disregolazione, distinguendoli da quelli che manifestano una risposta secondaria. A tal fine viene adottato il metodo SourceSet, uno strumento specificamente progettato per individuare le sorgenti primarie di perturbazione in reti geniche. Le interazioni tra geni vengono modellizzate mediante modelli grafici gaussiani, che consentono di rappresentare le dipendenze condizionali tra variabili e di isolare connessioni realmente significative all’interno di reti complesse. L’analisi è stata condotta considerando due scenari distinti: uno in cui la struttura del grafo è nota a priori ed uno in cui essa viene stimata dai dati tramite il graphical lasso, con selezione del parametro di regolarizzazione basata sul criterio EBIC. Per ridurre rischi di sovrastima delle prestazioni è stata inoltre valutata una procedura stima–verifica, che separa i dati in due sottoinsiemi indipendenti per la fase di ricostruzione e di test. La valutazione del metodo è stata effettuata inizialmente su dati simulati, introducendo perturbazioni controllate a livello di nodi e archi e successivamente su dati reali di espressione genica (dataset GSE19114). I risultati mostrano che, in presenza di una struttura nota, SourceSet raggiunge un’elevata sensibilità nell’individuazione dei geni primariamente disregolati, a costo però di un numero consistente di falsi positivi. Al contrario, quando la struttura è stimata dai dati, si osserva un aumento della specificità e una riduzione degli errori, accompagnati però da una perdita parziale di potenza inferenziale. La procedura stima–verifica non ha evidenziato vantaggi significativi, risultando penalizzata soprattutto in condizioni di campioni ridotti. Nel complesso, lo studio evidenzia come la qualità della stima strutturale giochi un ruolo cruciale nell’equilibrio tra sensibilità e precisione del metodo SourceSet. Nessuno dei due approcci, grafo noto o stimato, risulta universalmente preferibile, suggerendo la necessità di strategie ibride che integrino conoscenza biologica predefinita e informazione empirica derivante dai dati.

Stima strutturale in modelli grafici gaussiani per l'identificazione di geni disregolati

POLLINI, COSTANZA
2024/2025

Abstract

Questo lavoro di tesi affronta il problema dell’identificazione dei geni primariamente responsabili di processi di disregolazione, distinguendoli da quelli che manifestano una risposta secondaria. A tal fine viene adottato il metodo SourceSet, uno strumento specificamente progettato per individuare le sorgenti primarie di perturbazione in reti geniche. Le interazioni tra geni vengono modellizzate mediante modelli grafici gaussiani, che consentono di rappresentare le dipendenze condizionali tra variabili e di isolare connessioni realmente significative all’interno di reti complesse. L’analisi è stata condotta considerando due scenari distinti: uno in cui la struttura del grafo è nota a priori ed uno in cui essa viene stimata dai dati tramite il graphical lasso, con selezione del parametro di regolarizzazione basata sul criterio EBIC. Per ridurre rischi di sovrastima delle prestazioni è stata inoltre valutata una procedura stima–verifica, che separa i dati in due sottoinsiemi indipendenti per la fase di ricostruzione e di test. La valutazione del metodo è stata effettuata inizialmente su dati simulati, introducendo perturbazioni controllate a livello di nodi e archi e successivamente su dati reali di espressione genica (dataset GSE19114). I risultati mostrano che, in presenza di una struttura nota, SourceSet raggiunge un’elevata sensibilità nell’individuazione dei geni primariamente disregolati, a costo però di un numero consistente di falsi positivi. Al contrario, quando la struttura è stimata dai dati, si osserva un aumento della specificità e una riduzione degli errori, accompagnati però da una perdita parziale di potenza inferenziale. La procedura stima–verifica non ha evidenziato vantaggi significativi, risultando penalizzata soprattutto in condizioni di campioni ridotti. Nel complesso, lo studio evidenzia come la qualità della stima strutturale giochi un ruolo cruciale nell’equilibrio tra sensibilità e precisione del metodo SourceSet. Nessuno dei due approcci, grafo noto o stimato, risulta universalmente preferibile, suggerendo la necessità di strategie ibride che integrino conoscenza biologica predefinita e informazione empirica derivante dai dati.
2024
Structural estimation in Gaussian graphical models for the identification of dysregulation
modelli gaussiani
espressioni genica
disregolazione
primaria
File in questo prodotto:
File Dimensione Formato  
Pollini_Costanza.pdf

accesso aperto

Dimensione 3.18 MB
Formato Adobe PDF
3.18 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/93039