Today, thanks to the continuous development of technology, high-dimensionality data are common in many fields, from finance to genomics. For the analysis of this kind of data, appropriate methodologies are needed to overcome the curse of dimensionality. With this aim, a nonparametric Bayesian clustering method based on latent factorization is presented where partitioning of observations occurs in a low-dimensionality space that is therefore not afflicted by the curse. The significant contribution is the introduction of infinite factorization of the sample space. This can be achieved by defining, for the projection matrix, a cumulative shrinkage prior distribution that adds regularization as the number of factors increases. In this way, the dimensionality of the latent space does not have to be fixed before estimation but is selected and updated along with the estimation algorithm, thus resulting in shorter estimation times and/or better performance. The presented methodology was applied for clustering single-cell RNA-seq data, where the high dimensionality is due to the huge number of genes in the RNA. Compared with state-of-the-art methods, the proposed approach leads to competitive performance and in addition allows important post-inference analyses.

Oggi, grazie al continuo sviluppo della tecnologia, dati ad alta dimensionalità sono comuni in molti campi, dalla finanza alla genomica. Per l'analisi di questo tipo di dati, metodologie appropriate sono necessarie per superare la maledizione della dimensionalità. A tal fine, viene presentato un metodo di clustering bayesiano nonparametrico basato su una fattorizzazione latente dove il partizionamento delle osservazioni avviene in uno spazio a dimensionalità ridotta che quindi non è afflitto dalla maledizione. Il maggior contributo è l'introduzione di una fattorizzazione infinita dimensionale dello spazio campionario. Questo può essere ottenuto definendo, per la matrice di proiezione, una distribuzione a priori shrinkage che aggiunge regolarizzazione all'aumentare del numero di fattori. In questo modo, la dimensionalità dello spazio latente non deve essere fissata a priori, ma viene selezionata e aggiornata assieme all'algoritmo di stima, comportando così tempi di stima più brevi e/o a prestazioni migliori. La metodologia presentata è stata applicata per il clustering di dati single-cell RNA-seq, dove l'elevata dimensionalità è data dall'enorme numero di geni presenti. Confrontata con i metodi rappresentanti lo stato dell'arte, la metodologia proposta porta a prestazioni competitive e in più consente importanti analisi di post-inferenza.

Bayesian nonparametric clustering for high dimensional data via infinite factorizations

CIFELLI, LORENZO
2021/2022

Abstract

Today, thanks to the continuous development of technology, high-dimensionality data are common in many fields, from finance to genomics. For the analysis of this kind of data, appropriate methodologies are needed to overcome the curse of dimensionality. With this aim, a nonparametric Bayesian clustering method based on latent factorization is presented where partitioning of observations occurs in a low-dimensionality space that is therefore not afflicted by the curse. The significant contribution is the introduction of infinite factorization of the sample space. This can be achieved by defining, for the projection matrix, a cumulative shrinkage prior distribution that adds regularization as the number of factors increases. In this way, the dimensionality of the latent space does not have to be fixed before estimation but is selected and updated along with the estimation algorithm, thus resulting in shorter estimation times and/or better performance. The presented methodology was applied for clustering single-cell RNA-seq data, where the high dimensionality is due to the huge number of genes in the RNA. Compared with state-of-the-art methods, the proposed approach leads to competitive performance and in addition allows important post-inference analyses.
2021
Bayesian nonparametric clustering for high dimensional data via infinite factorizations
Oggi, grazie al continuo sviluppo della tecnologia, dati ad alta dimensionalità sono comuni in molti campi, dalla finanza alla genomica. Per l'analisi di questo tipo di dati, metodologie appropriate sono necessarie per superare la maledizione della dimensionalità. A tal fine, viene presentato un metodo di clustering bayesiano nonparametrico basato su una fattorizzazione latente dove il partizionamento delle osservazioni avviene in uno spazio a dimensionalità ridotta che quindi non è afflitto dalla maledizione. Il maggior contributo è l'introduzione di una fattorizzazione infinita dimensionale dello spazio campionario. Questo può essere ottenuto definendo, per la matrice di proiezione, una distribuzione a priori shrinkage che aggiunge regolarizzazione all'aumentare del numero di fattori. In questo modo, la dimensionalità dello spazio latente non deve essere fissata a priori, ma viene selezionata e aggiornata assieme all'algoritmo di stima, comportando così tempi di stima più brevi e/o a prestazioni migliori. La metodologia presentata è stata applicata per il clustering di dati single-cell RNA-seq, dove l'elevata dimensionalità è data dall'enorme numero di geni presenti. Confrontata con i metodi rappresentanti lo stato dell'arte, la metodologia proposta porta a prestazioni competitive e in più consente importanti analisi di post-inferenza.
Clustering
Bayesian
High Dimensionality
Single-cell RNA-Seq
File in questo prodotto:
File Dimensione Formato  
Cifelli_Lorenzo.pdf

accesso riservato

Dimensione 3.22 MB
Formato Adobe PDF
3.22 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/38803