Modelli a mistura finita per il clustering: un confronto tra l'approccio parametrico e non parametrico

The process of dividing a dataset into groups of homogeneous observations is known as clustering. Early clustering methods were based on the concept of distance to partition data into groups. These methods have several limitations due to their heuristic approach, the most important being the lack of inferential procedures. Model-based clustering methods offer a more rigorous approach by assuming that data are generated from a probabilistic model. The purpose of this report is to compare parametric and non-parametric methods for estimating a mixture model underlying the data and their application to the clustering problem, describing the relating estimation algorithms and then evaluating their behaviour when applied to different scenarios through a simulation study.

Il procedimento di suddivisione di un insieme di dati in gruppi di osservazioni omogenee tra loro prende il nome di clustering. I primi metodi di clustering introdotti si basano sul concetto di distanza per dividere i dati in gruppi. Questi metodi presentano una serie di limitazioni dovute al loro approccio euristico, prima fra tutte la mancanza di procedure inferenziali. I metodi di clustering basati su modelli, assumendo che i dati siano generati da un modello probabilistico, offrono un approccio più rigoroso. Lo scopo di questa relazione è mettere a confronto dei metodi parametrici e non parametrici per la stima di un modello mistura sottostante ai dati e la loro applicazione al problema di clustering, descrivendone i relativi algoritmi di stima e successivamente valutando il loro comportamento quando applicati a diversi scenari attraverso uno studio di simulazione.

Modelli a mistura finita per il clustering: un confronto tra l'approccio parametrico e non parametrico

CAICCHIOLO, GIORGIA

2023/2024

Abstract

The process of dividing a dataset into groups of homogeneous observations is known as clustering. Early clustering methods were based on the concept of distance to partition data into groups. These methods have several limitations due to their heuristic approach, the most important being the lack of inferential procedures. Model-based clustering methods offer a more rigorous approach by assuming that data are generated from a probabilistic model. The purpose of this report is to compare parametric and non-parametric methods for estimating a mixture model underlying the data and their application to the clustering problem, describing the relating estimation algorithms and then evaluating their behaviour when applied to different scenarios through a simulation study.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Dipartimento di Scienze Statistiche
			
	Corso di studio
	
				STATISTICA PER L'ECONOMIA E L'IMPRESA Laurea di Primo Livello (D.M. 270/2004)
			
	Anno Accademico
	
				2023
			
	Titolo inglese
	
				Finite mixture models for clustering: a comparison between parametric and nonparametric approach
			
	Abstract in italiano
	
				Il procedimento di suddivisione di un insieme di dati in gruppi di osservazioni omogenee tra loro prende il nome di clustering. I primi metodi di clustering introdotti si basano sul concetto di distanza per dividere i dati in gruppi. Questi metodi presentano una serie di limitazioni dovute al loro approccio euristico, prima fra tutte la mancanza di procedure inferenziali. I metodi di clustering basati su modelli, assumendo che i dati siano generati da un modello probabilistico, offrono un approccio più rigoroso. Lo scopo di questa relazione è mettere a confronto dei metodi parametrici e non parametrici per la stima di un modello mistura sottostante ai dati e la loro applicazione al problema di clustering, descrivendone i relativi algoritmi di stima e successivamente valutando il loro comportamento quando applicati a diversi scenari attraverso uno studio di simulazione.
			
	Parola chiave
	
				Clustering
Modelli mistura
Non parametrico
			
	Relatore
	
				MENARDI, GIOVANNA
			
	Appare nelle tipologie:
	
				Lauree triennali

File in questo prodotto:

File	Dimensione	Formato
Caicchiolo_Giorgia.pdf accesso aperto Dimensione 1.16 MB Formato Adobe PDF Visualizza/Apri	1.16 MB	Adobe PDF	Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/77659