Biclustering bayesiano in presenza di covariate: teoria e applicazioni

Il biclustering rappresenta un'estensione del clustering tradizionale che permette di identificare simultaneamente gruppi di righe e colonne in matrici di dati ad alta dimensionalità. Questa tecnica è particolarmente rilevante in ambito genomico, dove consente di individuare sottoinsiemi di geni con pattern di espressione simili in specifici gruppi di campioni. Tra i metodi bayesiani per il biclustering, il modello Spike-and-Slab LASSO Biclustering (SSLB) di Moran et al. (2021) si distingue per la capacità di stimare automaticamente il numero di bicluster e di adattarsi ai diversi livelli di sparsità dei dati, senza imporre vincoli rigidi sulla loro struttura. Questo lavoro propone un'estensione del modello SSLB che incorpora l'effetto di covariate associate alle righe e/o alle colonne della matrice dei dati. L'inclusione di informazioni ausiliarie nel modello permette di separare esplicitamente gli effetti sistematici noti dalle strutture latenti, migliorando sia l'identificazione dei bicluster sia l'interpretabilità dei risultati. Il modello esteso mantiene le caratteristiche del metodo originale, utilizzando distribuzioni a priori Spike-and-Slab per indurre sparsità e il processo Indian Buffet per la stima automatica del numero di bicluster. La stima avviene tramite un algoritmo EM variazionale computazionalmente efficiente. Lo studio di simulazione evidenzia che le performance del modello proposto risultano equivalenti a SSLB standard quando le covariate hanno effetti trascurabili e migliori in presenza di covariate informative. Infine, il modello è stato applicato a dati di espressione genica di pazienti affette da carcinoma ovarico, provenienti dal Cancer Genome Atlas.

Biclustering bayesiano in presenza di covariate: teoria e applicazioni

VEGHIN, IRENE

2024/2025

Abstract

Il biclustering rappresenta un'estensione del clustering tradizionale che permette di identificare simultaneamente gruppi di righe e colonne in matrici di dati ad alta dimensionalità. Questa tecnica è particolarmente rilevante in ambito genomico, dove consente di individuare sottoinsiemi di geni con pattern di espressione simili in specifici gruppi di campioni. Tra i metodi bayesiani per il biclustering, il modello Spike-and-Slab LASSO Biclustering (SSLB) di Moran et al. (2021) si distingue per la capacità di stimare automaticamente il numero di bicluster e di adattarsi ai diversi livelli di sparsità dei dati, senza imporre vincoli rigidi sulla loro struttura. Questo lavoro propone un'estensione del modello SSLB che incorpora l'effetto di covariate associate alle righe e/o alle colonne della matrice dei dati. L'inclusione di informazioni ausiliarie nel modello permette di separare esplicitamente gli effetti sistematici noti dalle strutture latenti, migliorando sia l'identificazione dei bicluster sia l'interpretabilità dei risultati. Il modello esteso mantiene le caratteristiche del metodo originale, utilizzando distribuzioni a priori Spike-and-Slab per indurre sparsità e il processo Indian Buffet per la stima automatica del numero di bicluster. La stima avviene tramite un algoritmo EM variazionale computazionalmente efficiente. Lo studio di simulazione evidenzia che le performance del modello proposto risultano equivalenti a SSLB standard quando le covariate hanno effetti trascurabili e migliori in presenza di covariate informative. Infine, il modello è stato applicato a dati di espressione genica di pazienti affette da carcinoma ovarico, provenienti dal Cancer Genome Atlas.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Dipartimento di Scienze Statistiche
			
	Corso di studio
	
				SCIENZE STATISTICHE Laurea Magistrale (D.M. 270/2004)
			
	Anno Accademico
	
				2024
			
	Titolo inglese
	
				Bayesian biclustering in the presence of covariates: theory and applications
			
	Parola chiave
	
				Biclustering
Bayesian model
Covariates
Genomics
			
	Relatore
	
				MENARDI, GIOVANNA
			
	Correlatore
	
				DENTI, FRANCESCO
			
	Appare nelle tipologie:
	
				Lauree magistrali

File in questo prodotto:

File	Dimensione	Formato
Veghin_Irene.pdf accesso aperto Dimensione 9.74 MB Formato Adobe PDF Visualizza/Apri	9.74 MB	Adobe PDF	Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/98952