Il biclustering rappresenta un'estensione del clustering tradizionale che permette di identificare simultaneamente gruppi di righe e colonne in matrici di dati ad alta dimensionalità. Questa tecnica è particolarmente rilevante in ambito genomico, dove consente di individuare sottoinsiemi di geni con pattern di espressione simili in specifici gruppi di campioni. Tra i metodi bayesiani per il biclustering, il modello Spike-and-Slab LASSO Biclustering (SSLB) di Moran et al. (2021) si distingue per la capacità di stimare automaticamente il numero di bicluster e di adattarsi ai diversi livelli di sparsità dei dati, senza imporre vincoli rigidi sulla loro struttura. Questo lavoro propone un'estensione del modello SSLB che incorpora l'effetto di covariate associate alle righe e/o alle colonne della matrice dei dati. L'inclusione di informazioni ausiliarie nel modello permette di separare esplicitamente gli effetti sistematici noti dalle strutture latenti, migliorando sia l'identificazione dei bicluster sia l'interpretabilità dei risultati. Il modello esteso mantiene le caratteristiche del metodo originale, utilizzando distribuzioni a priori Spike-and-Slab per indurre sparsità e il processo Indian Buffet per la stima automatica del numero di bicluster. La stima avviene tramite un algoritmo EM variazionale computazionalmente efficiente. Lo studio di simulazione evidenzia che le performance del modello proposto risultano equivalenti a SSLB standard quando le covariate hanno effetti trascurabili e migliori in presenza di covariate informative. Infine, il modello è stato applicato a dati di espressione genica di pazienti affette da carcinoma ovarico, provenienti dal Cancer Genome Atlas.
Biclustering bayesiano in presenza di covariate: teoria e applicazioni
VEGHIN, IRENE
2024/2025
Abstract
Il biclustering rappresenta un'estensione del clustering tradizionale che permette di identificare simultaneamente gruppi di righe e colonne in matrici di dati ad alta dimensionalità. Questa tecnica è particolarmente rilevante in ambito genomico, dove consente di individuare sottoinsiemi di geni con pattern di espressione simili in specifici gruppi di campioni. Tra i metodi bayesiani per il biclustering, il modello Spike-and-Slab LASSO Biclustering (SSLB) di Moran et al. (2021) si distingue per la capacità di stimare automaticamente il numero di bicluster e di adattarsi ai diversi livelli di sparsità dei dati, senza imporre vincoli rigidi sulla loro struttura. Questo lavoro propone un'estensione del modello SSLB che incorpora l'effetto di covariate associate alle righe e/o alle colonne della matrice dei dati. L'inclusione di informazioni ausiliarie nel modello permette di separare esplicitamente gli effetti sistematici noti dalle strutture latenti, migliorando sia l'identificazione dei bicluster sia l'interpretabilità dei risultati. Il modello esteso mantiene le caratteristiche del metodo originale, utilizzando distribuzioni a priori Spike-and-Slab per indurre sparsità e il processo Indian Buffet per la stima automatica del numero di bicluster. La stima avviene tramite un algoritmo EM variazionale computazionalmente efficiente. Lo studio di simulazione evidenzia che le performance del modello proposto risultano equivalenti a SSLB standard quando le covariate hanno effetti trascurabili e migliori in presenza di covariate informative. Infine, il modello è stato applicato a dati di espressione genica di pazienti affette da carcinoma ovarico, provenienti dal Cancer Genome Atlas.| File | Dimensione | Formato | |
|---|---|---|---|
|
Veghin_Irene.pdf
accesso aperto
Dimensione
9.74 MB
Formato
Adobe PDF
|
9.74 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/98952