The process of dividing a dataset into groups of homogeneous observations is known as clustering. Early clustering methods were based on the concept of distance to partition data into groups. These methods have several limitations due to their heuristic approach, the most important being the lack of inferential procedures. Model-based clustering methods offer a more rigorous approach by assuming that data are generated from a probabilistic model. The purpose of this report is to compare parametric and non-parametric methods for estimating a mixture model underlying the data and their application to the clustering problem, describing the relating estimation algorithms and then evaluating their behaviour when applied to different scenarios through a simulation study.
Il procedimento di suddivisione di un insieme di dati in gruppi di osservazioni omogenee tra loro prende il nome di clustering. I primi metodi di clustering introdotti si basano sul concetto di distanza per dividere i dati in gruppi. Questi metodi presentano una serie di limitazioni dovute al loro approccio euristico, prima fra tutte la mancanza di procedure inferenziali. I metodi di clustering basati su modelli, assumendo che i dati siano generati da un modello probabilistico, offrono un approccio più rigoroso. Lo scopo di questa relazione è mettere a confronto dei metodi parametrici e non parametrici per la stima di un modello mistura sottostante ai dati e la loro applicazione al problema di clustering, descrivendone i relativi algoritmi di stima e successivamente valutando il loro comportamento quando applicati a diversi scenari attraverso uno studio di simulazione.
Modelli a mistura finita per il clustering: un confronto tra l'approccio parametrico e non parametrico
CAICCHIOLO, GIORGIA
2023/2024
Abstract
The process of dividing a dataset into groups of homogeneous observations is known as clustering. Early clustering methods were based on the concept of distance to partition data into groups. These methods have several limitations due to their heuristic approach, the most important being the lack of inferential procedures. Model-based clustering methods offer a more rigorous approach by assuming that data are generated from a probabilistic model. The purpose of this report is to compare parametric and non-parametric methods for estimating a mixture model underlying the data and their application to the clustering problem, describing the relating estimation algorithms and then evaluating their behaviour when applied to different scenarios through a simulation study.File | Dimensione | Formato | |
---|---|---|---|
Caicchiolo_Giorgia.pdf
accesso aperto
Dimensione
1.16 MB
Formato
Adobe PDF
|
1.16 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/77659