Bayesian nonparametric clustering for high dimensional data
via infinite factorizations

Today, thanks to the continuous development of technology, high-dimensionality data are common in many fields, from finance to genomics. For the analysis of this kind of data, appropriate methodologies are needed to overcome the curse of dimensionality. With this aim, a nonparametric Bayesian clustering method based on latent factorization is presented where partitioning of observations occurs in a low-dimensionality space that is therefore not afflicted by the curse. The significant contribution is the introduction of infinite factorization of the sample space. This can be achieved by defining, for the projection matrix, a cumulative shrinkage prior distribution that adds regularization as the number of factors increases. In this way, the dimensionality of the latent space does not have to be fixed before estimation but is selected and updated along with the estimation algorithm, thus resulting in shorter estimation times and/or better performance. The presented methodology was applied for clustering single-cell RNA-seq data, where the high dimensionality is due to the huge number of genes in the RNA. Compared with state-of-the-art methods, the proposed approach leads to competitive performance and in addition allows important post-inference analyses.

Oggi, grazie al continuo sviluppo della tecnologia, dati ad alta dimensionalità sono comuni in molti campi, dalla finanza alla genomica. Per l'analisi di questo tipo di dati, metodologie appropriate sono necessarie per superare la maledizione della dimensionalità. A tal fine, viene presentato un metodo di clustering bayesiano nonparametrico basato su una fattorizzazione latente dove il partizionamento delle osservazioni avviene in uno spazio a dimensionalità ridotta che quindi non è afflitto dalla maledizione. Il maggior contributo è l'introduzione di una fattorizzazione infinita dimensionale dello spazio campionario. Questo può essere ottenuto definendo, per la matrice di proiezione, una distribuzione a priori shrinkage che aggiunge regolarizzazione all'aumentare del numero di fattori. In questo modo, la dimensionalità dello spazio latente non deve essere fissata a priori, ma viene selezionata e aggiornata assieme all'algoritmo di stima, comportando così tempi di stima più brevi e/o a prestazioni migliori. La metodologia presentata è stata applicata per il clustering di dati single-cell RNA-seq, dove l'elevata dimensionalità è data dall'enorme numero di geni presenti. Confrontata con i metodi rappresentanti lo stato dell'arte, la metodologia proposta porta a prestazioni competitive e in più consente importanti analisi di post-inferenza.

Bayesian nonparametric clustering for high dimensional data via infinite factorizations

CIFELLI, LORENZO

2021/2022

Abstract

Today, thanks to the continuous development of technology, high-dimensionality data are common in many fields, from finance to genomics. For the analysis of this kind of data, appropriate methodologies are needed to overcome the curse of dimensionality. With this aim, a nonparametric Bayesian clustering method based on latent factorization is presented where partitioning of observations occurs in a low-dimensionality space that is therefore not afflicted by the curse. The significant contribution is the introduction of infinite factorization of the sample space. This can be achieved by defining, for the projection matrix, a cumulative shrinkage prior distribution that adds regularization as the number of factors increases. In this way, the dimensionality of the latent space does not have to be fixed before estimation but is selected and updated along with the estimation algorithm, thus resulting in shorter estimation times and/or better performance. The presented methodology was applied for clustering single-cell RNA-seq data, where the high dimensionality is due to the huge number of genes in the RNA. Compared with state-of-the-art methods, the proposed approach leads to competitive performance and in addition allows important post-inference analyses.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Dipartimento di Scienze Statistiche
			
	Corso di studio
	
				SCIENZE STATISTICHE Laurea Magistrale (D.M. 270/2004)
			
	Anno Accademico
	
				2021
			
	Titolo inglese
	
				Bayesian nonparametric clustering for high dimensional data
via infinite factorizations
			
	Abstract in italiano
	
				Oggi, grazie al continuo sviluppo della tecnologia, dati ad alta dimensionalità sono comuni in molti campi, dalla finanza alla genomica. Per l'analisi di questo tipo di dati, metodologie appropriate sono necessarie per superare la maledizione della dimensionalità. A tal fine, viene presentato un metodo di clustering bayesiano nonparametrico basato su una fattorizzazione latente dove il partizionamento delle osservazioni avviene in uno spazio a dimensionalità ridotta che quindi non è afflitto dalla maledizione. Il maggior contributo è l'introduzione di una fattorizzazione infinita dimensionale dello spazio campionario. Questo può essere ottenuto definendo, per la matrice di proiezione, una distribuzione a priori shrinkage che aggiunge regolarizzazione all'aumentare del numero di fattori. In questo modo, la dimensionalità dello spazio latente non deve essere fissata a priori, ma viene selezionata e aggiornata assieme all'algoritmo di stima, comportando così tempi di stima più brevi e/o a prestazioni migliori. La metodologia presentata è stata applicata per il clustering di dati single-cell RNA-seq, dove l'elevata dimensionalità è data dall'enorme numero di geni presenti. Confrontata con i metodi rappresentanti lo stato dell'arte, la metodologia proposta porta a prestazioni competitive e in più consente importanti analisi di post-inferenza.
			
	Parola chiave
	
				Clustering
Bayesian
High Dimensionality
Single-cell RNA-Seq
			
	Relatore
	
				CANALE, ANTONIO
			
	Appare nelle tipologie:
	
				Lauree magistrali

File in questo prodotto:

File	Dimensione	Formato
Cifelli_Lorenzo.pdf Accesso riservato Dimensione 3.22 MB Formato Adobe PDF	3.22 MB	Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/38803

Bayesian nonparametric clustering for high dimensional data via infinite factorizations

CIFELLI, LORENZO

2021/2022

Abstract

Scheda Scheda DC

Informazioni

Conferma cancellazione

Scheda

Scheda DC