In this study, we compare dimensionality reduction methods for mixed type data, combining t-SNE and UMAP with approaches that map categorical variables into a continuous space or, alternatively, with distances suitable for mixed data. We also examine automatic hyperparameter selection procedures for t-SNE and UMAP. The evaluation is conducted through data simulations with a latent cluster structure and through an application to real data.
Nel presente elaborato vengono confrontati metodi di riduzione della dimensionalità per dati misti, combinando t-SNE e UMAP con metodi per rappresentare le variabili categoriali in uno spazio continuo o, in alternativa, con distanze adatte a dati misti. Si analizzano inoltre procedure di selezione automatica degli iperparametri per t-SNE e UMAP. La valutazione avviene tramite simulazioni di dati con struttura latente di cluster e mediante un’applicazione su dati reali.
Studio comparativo di metodi per la riduzione della dimensionalità in presenza di dati misti
PIZZOCARO, MICHELINA
2024/2025
Abstract
In this study, we compare dimensionality reduction methods for mixed type data, combining t-SNE and UMAP with approaches that map categorical variables into a continuous space or, alternatively, with distances suitable for mixed data. We also examine automatic hyperparameter selection procedures for t-SNE and UMAP. The evaluation is conducted through data simulations with a latent cluster structure and through an application to real data.| File | Dimensione | Formato | |
|---|---|---|---|
|
Pizzocaro_Michelina.pdf
accesso aperto
Dimensione
18.19 MB
Formato
Adobe PDF
|
18.19 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/98946