Il clustering è un importante strumento nell’investigazione scientifica in molti differenti domini, ed esistono diversi metodi per eseguirlo. Alcuni tra i metodi di clustering più popolari, quelli di tipo gerarchico e di tipo non gerarchico, tra cui k-medie, nonostante siano efficaci in numerose applicazioni, presentano delle limitazioni: restituiscono una singola soluzione di clustering, necessitano della specificazione a priori del numero di cluster e sono largamente euristici, non essendo basati su modelli formali. I metodi di clustering basati su modelli mistura finiti forniscono un’incertezza sulla soluzione di clustering proposta, che però ignora l'incertezza nella stima dei parametri. I metodi di clustering basati su modelli mistura bayesiani non parametrici, invece, prevedono la conoscenza di informazioni a priori sui parametri e assumono un numero infinito di componenti. Queste caratteristiche permettono, per questi modelli, la crescita del numero di cluster a mano a mano che nuovi dati vengono raccolti, e la valutazione dell'incertezza nella struttura di clustering incondizionatamente alle stime dei parametri. L’utilizzo di metodi bayesiani comporta la necessità di una sintesi dell'informazione contenuta nella distribuzione a posteriori dello spazio delle partizioni; questa è fornita da un'appropriata stima puntuale della soluzione di clustering, con un relativo insieme di credibilità al 95%. Per fare ciò ci sono diversi approcci; in questo elaborato ci si concentra sui metodi basati sulle tecniche teoretiche dell’informazione e della decisione.

Un metodo di stima puntuale per il clustering bayesiano basato su metriche sullo spazio delle partizioni

CASTELLETTI, NICOLA
2022/2023

Abstract

Il clustering è un importante strumento nell’investigazione scientifica in molti differenti domini, ed esistono diversi metodi per eseguirlo. Alcuni tra i metodi di clustering più popolari, quelli di tipo gerarchico e di tipo non gerarchico, tra cui k-medie, nonostante siano efficaci in numerose applicazioni, presentano delle limitazioni: restituiscono una singola soluzione di clustering, necessitano della specificazione a priori del numero di cluster e sono largamente euristici, non essendo basati su modelli formali. I metodi di clustering basati su modelli mistura finiti forniscono un’incertezza sulla soluzione di clustering proposta, che però ignora l'incertezza nella stima dei parametri. I metodi di clustering basati su modelli mistura bayesiani non parametrici, invece, prevedono la conoscenza di informazioni a priori sui parametri e assumono un numero infinito di componenti. Queste caratteristiche permettono, per questi modelli, la crescita del numero di cluster a mano a mano che nuovi dati vengono raccolti, e la valutazione dell'incertezza nella struttura di clustering incondizionatamente alle stime dei parametri. L’utilizzo di metodi bayesiani comporta la necessità di una sintesi dell'informazione contenuta nella distribuzione a posteriori dello spazio delle partizioni; questa è fornita da un'appropriata stima puntuale della soluzione di clustering, con un relativo insieme di credibilità al 95%. Per fare ciò ci sono diversi approcci; in questo elaborato ci si concentra sui metodi basati sulle tecniche teoretiche dell’informazione e della decisione.
2022
A point estimation method for bayesian clustering based on metrics on the space of partitions
Clustering
Bayesiano
Stima
Metrica
File in questo prodotto:
File Dimensione Formato  
Castelletti_Nicola.pdf

accesso aperto

Dimensione 1.09 MB
Formato Adobe PDF
1.09 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/49971