Il biclustering rappresenta un'estensione del clustering tradizionale che permette di identificare simultaneamente gruppi di righe e colonne in matrici di dati ad alta dimensionalità. Questa tecnica è particolarmente rilevante in ambito genomico, dove consente di individuare sottoinsiemi di geni con pattern di espressione simili in specifici gruppi di campioni. Tra i metodi bayesiani per il biclustering, il modello Spike-and-Slab LASSO Biclustering (SSLB) di Moran et al. (2021) si distingue per la capacità di stimare automaticamente il numero di bicluster e di adattarsi ai diversi livelli di sparsità dei dati, senza imporre vincoli rigidi sulla loro struttura. Questo lavoro propone un'estensione del modello SSLB che incorpora l'effetto di covariate associate alle righe e/o alle colonne della matrice dei dati. L'inclusione di informazioni ausiliarie nel modello permette di separare esplicitamente gli effetti sistematici noti dalle strutture latenti, migliorando sia l'identificazione dei bicluster sia l'interpretabilità dei risultati. Il modello esteso mantiene le caratteristiche del metodo originale, utilizzando distribuzioni a priori Spike-and-Slab per indurre sparsità e il processo Indian Buffet per la stima automatica del numero di bicluster. La stima avviene tramite un algoritmo EM variazionale computazionalmente efficiente. Lo studio di simulazione evidenzia che le performance del modello proposto risultano equivalenti a SSLB standard quando le covariate hanno effetti trascurabili e migliori in presenza di covariate informative. Infine, il modello è stato applicato a dati di espressione genica di pazienti affette da carcinoma ovarico, provenienti dal Cancer Genome Atlas.

Biclustering bayesiano in presenza di covariate: teoria e applicazioni

VEGHIN, IRENE
2024/2025

Abstract

Il biclustering rappresenta un'estensione del clustering tradizionale che permette di identificare simultaneamente gruppi di righe e colonne in matrici di dati ad alta dimensionalità. Questa tecnica è particolarmente rilevante in ambito genomico, dove consente di individuare sottoinsiemi di geni con pattern di espressione simili in specifici gruppi di campioni. Tra i metodi bayesiani per il biclustering, il modello Spike-and-Slab LASSO Biclustering (SSLB) di Moran et al. (2021) si distingue per la capacità di stimare automaticamente il numero di bicluster e di adattarsi ai diversi livelli di sparsità dei dati, senza imporre vincoli rigidi sulla loro struttura. Questo lavoro propone un'estensione del modello SSLB che incorpora l'effetto di covariate associate alle righe e/o alle colonne della matrice dei dati. L'inclusione di informazioni ausiliarie nel modello permette di separare esplicitamente gli effetti sistematici noti dalle strutture latenti, migliorando sia l'identificazione dei bicluster sia l'interpretabilità dei risultati. Il modello esteso mantiene le caratteristiche del metodo originale, utilizzando distribuzioni a priori Spike-and-Slab per indurre sparsità e il processo Indian Buffet per la stima automatica del numero di bicluster. La stima avviene tramite un algoritmo EM variazionale computazionalmente efficiente. Lo studio di simulazione evidenzia che le performance del modello proposto risultano equivalenti a SSLB standard quando le covariate hanno effetti trascurabili e migliori in presenza di covariate informative. Infine, il modello è stato applicato a dati di espressione genica di pazienti affette da carcinoma ovarico, provenienti dal Cancer Genome Atlas.
2024
Bayesian biclustering in the presence of covariates: theory and applications
Biclustering
Bayesian model
Covariates
Genomics
File in questo prodotto:
File Dimensione Formato  
Veghin_Irene.pdf

accesso aperto

Dimensione 9.74 MB
Formato Adobe PDF
9.74 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/98952