Questo lavoro di tesi affronta il problema dell’identificazione dei geni primariamente responsabili di processi di disregolazione, distinguendoli da quelli che manifestano una risposta secondaria. A tal fine viene adottato il metodo SourceSet, uno strumento specificamente progettato per individuare le sorgenti primarie di perturbazione in reti geniche. Le interazioni tra geni vengono modellizzate mediante modelli grafici gaussiani, che consentono di rappresentare le dipendenze condizionali tra variabili e di isolare connessioni realmente significative all’interno di reti complesse. L’analisi è stata condotta considerando due scenari distinti: uno in cui la struttura del grafo è nota a priori ed uno in cui essa viene stimata dai dati tramite il graphical lasso, con selezione del parametro di regolarizzazione basata sul criterio EBIC. Per ridurre rischi di sovrastima delle prestazioni è stata inoltre valutata una procedura stima–verifica, che separa i dati in due sottoinsiemi indipendenti per la fase di ricostruzione e di test. La valutazione del metodo è stata effettuata inizialmente su dati simulati, introducendo perturbazioni controllate a livello di nodi e archi e successivamente su dati reali di espressione genica (dataset GSE19114). I risultati mostrano che, in presenza di una struttura nota, SourceSet raggiunge un’elevata sensibilità nell’individuazione dei geni primariamente disregolati, a costo però di un numero consistente di falsi positivi. Al contrario, quando la struttura è stimata dai dati, si osserva un aumento della specificità e una riduzione degli errori, accompagnati però da una perdita parziale di potenza inferenziale. La procedura stima–verifica non ha evidenziato vantaggi significativi, risultando penalizzata soprattutto in condizioni di campioni ridotti. Nel complesso, lo studio evidenzia come la qualità della stima strutturale giochi un ruolo cruciale nell’equilibrio tra sensibilità e precisione del metodo SourceSet. Nessuno dei due approcci, grafo noto o stimato, risulta universalmente preferibile, suggerendo la necessità di strategie ibride che integrino conoscenza biologica predefinita e informazione empirica derivante dai dati.
Stima strutturale in modelli grafici gaussiani per l'identificazione di geni disregolati
POLLINI, COSTANZA
2024/2025
Abstract
Questo lavoro di tesi affronta il problema dell’identificazione dei geni primariamente responsabili di processi di disregolazione, distinguendoli da quelli che manifestano una risposta secondaria. A tal fine viene adottato il metodo SourceSet, uno strumento specificamente progettato per individuare le sorgenti primarie di perturbazione in reti geniche. Le interazioni tra geni vengono modellizzate mediante modelli grafici gaussiani, che consentono di rappresentare le dipendenze condizionali tra variabili e di isolare connessioni realmente significative all’interno di reti complesse. L’analisi è stata condotta considerando due scenari distinti: uno in cui la struttura del grafo è nota a priori ed uno in cui essa viene stimata dai dati tramite il graphical lasso, con selezione del parametro di regolarizzazione basata sul criterio EBIC. Per ridurre rischi di sovrastima delle prestazioni è stata inoltre valutata una procedura stima–verifica, che separa i dati in due sottoinsiemi indipendenti per la fase di ricostruzione e di test. La valutazione del metodo è stata effettuata inizialmente su dati simulati, introducendo perturbazioni controllate a livello di nodi e archi e successivamente su dati reali di espressione genica (dataset GSE19114). I risultati mostrano che, in presenza di una struttura nota, SourceSet raggiunge un’elevata sensibilità nell’individuazione dei geni primariamente disregolati, a costo però di un numero consistente di falsi positivi. Al contrario, quando la struttura è stimata dai dati, si osserva un aumento della specificità e una riduzione degli errori, accompagnati però da una perdita parziale di potenza inferenziale. La procedura stima–verifica non ha evidenziato vantaggi significativi, risultando penalizzata soprattutto in condizioni di campioni ridotti. Nel complesso, lo studio evidenzia come la qualità della stima strutturale giochi un ruolo cruciale nell’equilibrio tra sensibilità e precisione del metodo SourceSet. Nessuno dei due approcci, grafo noto o stimato, risulta universalmente preferibile, suggerendo la necessità di strategie ibride che integrino conoscenza biologica predefinita e informazione empirica derivante dai dati.| File | Dimensione | Formato | |
|---|---|---|---|
|
Pollini_Costanza.pdf
accesso aperto
Dimensione
3.18 MB
Formato
Adobe PDF
|
3.18 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/93039