This thesis addresses the fundamental statistical problem of understanding high-dimensional data by identifying its underlying low-dimensional latent structure. Framing the problem within the paradigm of representation learning, two main approaches are compared: classical statistical latent factor models, such as Principal Component Analysis (PCA) and Factor Analysis (FA), and their non-linear generalizations based on neural networks, specifically Autoencoders (AEs). Adopting a perspective focused on the generative model, the analysis is not limited to assessing data compression capabilities but centers on the fidelity with which different methods can recover the true latent factors that generated the data. The objective is to conduct a comparative analysis to determine if, and under what conditions, the greater flexibility of Autoencoders translates into a superior ability to retrieve the latent structure compared to more parsimonious and established statistical methods. To this end, a simulation study is presented, comparing the performance of PCA, FA, and Autoencoders in scenarios with both linear and non-linear latent structures.

Questa tesi affronta il problema statistico fondamentale della comprensione di dati ad alta dimensionalità attraverso l'identificazione della loro struttura latente a bassa dimensionalità. Inquadrando il problema nel paradigma del representation learning, vengono messi a confronto due approcci principali: i modelli statistici classici a fattori latenti, come l'Analisi delle Componenti Principali (PCA) e l'Analisi Fattoriale (FA), e le loro generalizzazioni non lineari basate su reti neurali, specificamente gli Autoencoder (AE). Adottando una prospettiva incentrata sul modello generativo, l'analisi non si limita a valutare la capacità di compressione dei dati, ma si concentra sulla fedeltà con cui i diversi metodi riescono a recuperare i veri fattori latenti che hanno generato i dati. L'obiettivo è condurre un'analisi comparativa per determinare se e in quali condizioni la maggiore flessibilità degli Autoencoder si traduca in una superiore capacità di recupero della struttura latente rispetto a metodi statistici più parsimoniosi e consolidati. A tal fine, viene presentato uno studio di simulazione che confronta le prestazioni di PCA, FA e Autoencoder in scenari con strutture latenti sia lineari che non lineari.

Riduzione della dimensionalità: un confronto tra reti neurali e metodi classici

LIN, DELI
2024/2025

Abstract

This thesis addresses the fundamental statistical problem of understanding high-dimensional data by identifying its underlying low-dimensional latent structure. Framing the problem within the paradigm of representation learning, two main approaches are compared: classical statistical latent factor models, such as Principal Component Analysis (PCA) and Factor Analysis (FA), and their non-linear generalizations based on neural networks, specifically Autoencoders (AEs). Adopting a perspective focused on the generative model, the analysis is not limited to assessing data compression capabilities but centers on the fidelity with which different methods can recover the true latent factors that generated the data. The objective is to conduct a comparative analysis to determine if, and under what conditions, the greater flexibility of Autoencoders translates into a superior ability to retrieve the latent structure compared to more parsimonious and established statistical methods. To this end, a simulation study is presented, comparing the performance of PCA, FA, and Autoencoders in scenarios with both linear and non-linear latent structures.
2024
Dimensionality Reduction: A Comparison Between Neural Networks and Classical Methods
Questa tesi affronta il problema statistico fondamentale della comprensione di dati ad alta dimensionalità attraverso l'identificazione della loro struttura latente a bassa dimensionalità. Inquadrando il problema nel paradigma del representation learning, vengono messi a confronto due approcci principali: i modelli statistici classici a fattori latenti, come l'Analisi delle Componenti Principali (PCA) e l'Analisi Fattoriale (FA), e le loro generalizzazioni non lineari basate su reti neurali, specificamente gli Autoencoder (AE). Adottando una prospettiva incentrata sul modello generativo, l'analisi non si limita a valutare la capacità di compressione dei dati, ma si concentra sulla fedeltà con cui i diversi metodi riescono a recuperare i veri fattori latenti che hanno generato i dati. L'obiettivo è condurre un'analisi comparativa per determinare se e in quali condizioni la maggiore flessibilità degli Autoencoder si traduca in una superiore capacità di recupero della struttura latente rispetto a metodi statistici più parsimoniosi e consolidati. A tal fine, viene presentato uno studio di simulazione che confronta le prestazioni di PCA, FA e Autoencoder in scenari con strutture latenti sia lineari che non lineari.
Reti neurali
PCA
Analisi Fattoriale
File in questo prodotto:
File Dimensione Formato  
Lin_Deli.pdf

accesso aperto

Dimensione 637.21 kB
Formato Adobe PDF
637.21 kB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/92955