Il clustering è un importante strumento nell’investigazione scientifica in molti differenti domini, ed esistono diversi metodi per eseguirlo. Alcuni tra i metodi di clustering più popolari, quelli di tipo gerarchico e di tipo non gerarchico, tra cui k-medie, nonostante siano efficaci in numerose applicazioni, presentano delle limitazioni: restituiscono una singola soluzione di clustering, necessitano della specificazione a priori del numero di cluster e sono largamente euristici, non essendo basati su modelli formali. I metodi di clustering basati su modelli mistura finiti forniscono un’incertezza sulla soluzione di clustering proposta, che però ignora l'incertezza nella stima dei parametri. I metodi di clustering basati su modelli mistura bayesiani non parametrici, invece, prevedono la conoscenza di informazioni a priori sui parametri e assumono un numero infinito di componenti. Queste caratteristiche permettono, per questi modelli, la crescita del numero di cluster a mano a mano che nuovi dati vengono raccolti, e la valutazione dell'incertezza nella struttura di clustering incondizionatamente alle stime dei parametri. L’utilizzo di metodi bayesiani comporta la necessità di una sintesi dell'informazione contenuta nella distribuzione a posteriori dello spazio delle partizioni; questa è fornita da un'appropriata stima puntuale della soluzione di clustering, con un relativo insieme di credibilità al 95%. Per fare ciò ci sono diversi approcci; in questo elaborato ci si concentra sui metodi basati sulle tecniche teoretiche dell’informazione e della decisione.
Un metodo di stima puntuale per il clustering bayesiano basato su metriche sullo spazio delle partizioni
CASTELLETTI, NICOLA
2022/2023
Abstract
Il clustering è un importante strumento nell’investigazione scientifica in molti differenti domini, ed esistono diversi metodi per eseguirlo. Alcuni tra i metodi di clustering più popolari, quelli di tipo gerarchico e di tipo non gerarchico, tra cui k-medie, nonostante siano efficaci in numerose applicazioni, presentano delle limitazioni: restituiscono una singola soluzione di clustering, necessitano della specificazione a priori del numero di cluster e sono largamente euristici, non essendo basati su modelli formali. I metodi di clustering basati su modelli mistura finiti forniscono un’incertezza sulla soluzione di clustering proposta, che però ignora l'incertezza nella stima dei parametri. I metodi di clustering basati su modelli mistura bayesiani non parametrici, invece, prevedono la conoscenza di informazioni a priori sui parametri e assumono un numero infinito di componenti. Queste caratteristiche permettono, per questi modelli, la crescita del numero di cluster a mano a mano che nuovi dati vengono raccolti, e la valutazione dell'incertezza nella struttura di clustering incondizionatamente alle stime dei parametri. L’utilizzo di metodi bayesiani comporta la necessità di una sintesi dell'informazione contenuta nella distribuzione a posteriori dello spazio delle partizioni; questa è fornita da un'appropriata stima puntuale della soluzione di clustering, con un relativo insieme di credibilità al 95%. Per fare ciò ci sono diversi approcci; in questo elaborato ci si concentra sui metodi basati sulle tecniche teoretiche dell’informazione e della decisione.File | Dimensione | Formato | |
---|---|---|---|
Castelletti_Nicola.pdf
accesso aperto
Dimensione
1.09 MB
Formato
Adobe PDF
|
1.09 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/49971