Un metodo di stima puntuale per il clustering bayesiano basato su metriche sullo spazio delle partizioni

Il clustering è un importante strumento nell’investigazione scientifica in molti differenti domini, ed esistono diversi metodi per eseguirlo. Alcuni tra i metodi di clustering più popolari, quelli di tipo gerarchico e di tipo non gerarchico, tra cui k-medie, nonostante siano efficaci in numerose applicazioni, presentano delle limitazioni: restituiscono una singola soluzione di clustering, necessitano della specificazione a priori del numero di cluster e sono largamente euristici, non essendo basati su modelli formali. I metodi di clustering basati su modelli mistura finiti forniscono un’incertezza sulla soluzione di clustering proposta, che però ignora l'incertezza nella stima dei parametri. I metodi di clustering basati su modelli mistura bayesiani non parametrici, invece, prevedono la conoscenza di informazioni a priori sui parametri e assumono un numero infinito di componenti. Queste caratteristiche permettono, per questi modelli, la crescita del numero di cluster a mano a mano che nuovi dati vengono raccolti, e la valutazione dell'incertezza nella struttura di clustering incondizionatamente alle stime dei parametri. L’utilizzo di metodi bayesiani comporta la necessità di una sintesi dell'informazione contenuta nella distribuzione a posteriori dello spazio delle partizioni; questa è fornita da un'appropriata stima puntuale della soluzione di clustering, con un relativo insieme di credibilità al 95%. Per fare ciò ci sono diversi approcci; in questo elaborato ci si concentra sui metodi basati sulle tecniche teoretiche dell’informazione e della decisione.

Un metodo di stima puntuale per il clustering bayesiano basato su metriche sullo spazio delle partizioni

CASTELLETTI, NICOLA

2022/2023

Abstract

Il clustering è un importante strumento nell’investigazione scientifica in molti differenti domini, ed esistono diversi metodi per eseguirlo. Alcuni tra i metodi di clustering più popolari, quelli di tipo gerarchico e di tipo non gerarchico, tra cui k-medie, nonostante siano efficaci in numerose applicazioni, presentano delle limitazioni: restituiscono una singola soluzione di clustering, necessitano della specificazione a priori del numero di cluster e sono largamente euristici, non essendo basati su modelli formali. I metodi di clustering basati su modelli mistura finiti forniscono un’incertezza sulla soluzione di clustering proposta, che però ignora l'incertezza nella stima dei parametri. I metodi di clustering basati su modelli mistura bayesiani non parametrici, invece, prevedono la conoscenza di informazioni a priori sui parametri e assumono un numero infinito di componenti. Queste caratteristiche permettono, per questi modelli, la crescita del numero di cluster a mano a mano che nuovi dati vengono raccolti, e la valutazione dell'incertezza nella struttura di clustering incondizionatamente alle stime dei parametri. L’utilizzo di metodi bayesiani comporta la necessità di una sintesi dell'informazione contenuta nella distribuzione a posteriori dello spazio delle partizioni; questa è fornita da un'appropriata stima puntuale della soluzione di clustering, con un relativo insieme di credibilità al 95%. Per fare ciò ci sono diversi approcci; in questo elaborato ci si concentra sui metodi basati sulle tecniche teoretiche dell’informazione e della decisione.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Dipartimento di Scienze Statistiche
			
	Corso di studio
	
				STATISTICA PER LE TECNOLOGIE E LE SCIENZE Laurea di Primo Livello (D.M. 270/2004)
			
	Anno Accademico
	
				2022
			
	Titolo inglese
	
				A point estimation method for bayesian clustering based on metrics on the space of partitions
			
	Parola chiave
	
				Clustering
Bayesiano
Stima
Metrica
			
	Relatore
	
				CANALE, ANTONIO
			
	Appare nelle tipologie:
	
				Lauree triennali

File in questo prodotto:

File	Dimensione	Formato
Castelletti_Nicola.pdf accesso aperto Dimensione 1.09 MB Formato Adobe PDF Visualizza/Apri	1.09 MB	Adobe PDF	Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/49971