The process of dividing a dataset into groups of homogeneous observations is known as clustering. Early clustering methods were based on the concept of distance to partition data into groups. These methods have several limitations due to their heuristic approach, the most important being the lack of inferential procedures. Model-based clustering methods offer a more rigorous approach by assuming that data are generated from a probabilistic model. The purpose of this report is to compare parametric and non-parametric methods for estimating a mixture model underlying the data and their application to the clustering problem, describing the relating estimation algorithms and then evaluating their behaviour when applied to different scenarios through a simulation study.

Il procedimento di suddivisione di un insieme di dati in gruppi di osservazioni omogenee tra loro prende il nome di clustering. I primi metodi di clustering introdotti si basano sul concetto di distanza per dividere i dati in gruppi. Questi metodi presentano una serie di limitazioni dovute al loro approccio euristico, prima fra tutte la mancanza di procedure inferenziali. I metodi di clustering basati su modelli, assumendo che i dati siano generati da un modello probabilistico, offrono un approccio più rigoroso. Lo scopo di questa relazione è mettere a confronto dei metodi parametrici e non parametrici per la stima di un modello mistura sottostante ai dati e la loro applicazione al problema di clustering, descrivendone i relativi algoritmi di stima e successivamente valutando il loro comportamento quando applicati a diversi scenari attraverso uno studio di simulazione.

Modelli a mistura finita per il clustering: un confronto tra l'approccio parametrico e non parametrico

CAICCHIOLO, GIORGIA
2023/2024

Abstract

The process of dividing a dataset into groups of homogeneous observations is known as clustering. Early clustering methods were based on the concept of distance to partition data into groups. These methods have several limitations due to their heuristic approach, the most important being the lack of inferential procedures. Model-based clustering methods offer a more rigorous approach by assuming that data are generated from a probabilistic model. The purpose of this report is to compare parametric and non-parametric methods for estimating a mixture model underlying the data and their application to the clustering problem, describing the relating estimation algorithms and then evaluating their behaviour when applied to different scenarios through a simulation study.
2023
Finite mixture models for clustering: a comparison between parametric and nonparametric approach
Il procedimento di suddivisione di un insieme di dati in gruppi di osservazioni omogenee tra loro prende il nome di clustering. I primi metodi di clustering introdotti si basano sul concetto di distanza per dividere i dati in gruppi. Questi metodi presentano una serie di limitazioni dovute al loro approccio euristico, prima fra tutte la mancanza di procedure inferenziali. I metodi di clustering basati su modelli, assumendo che i dati siano generati da un modello probabilistico, offrono un approccio più rigoroso. Lo scopo di questa relazione è mettere a confronto dei metodi parametrici e non parametrici per la stima di un modello mistura sottostante ai dati e la loro applicazione al problema di clustering, descrivendone i relativi algoritmi di stima e successivamente valutando il loro comportamento quando applicati a diversi scenari attraverso uno studio di simulazione.
Clustering
Modelli mistura
Non parametrico
File in questo prodotto:
File Dimensione Formato  
Caicchiolo_Giorgia.pdf

accesso aperto

Dimensione 1.16 MB
Formato Adobe PDF
1.16 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/77659