Questa tesi mira ad approfondire il topic modeling, cioè una tecnica di analisi statistica, utilizzata nell’ambito del text mining e della Knowledge Discovery Database, che permette di ricavare delle informazioni da un insieme molto vasto di dati. Nello specifico, si vogliono determinare i topic, ovvero gli argomenti affrontati nei documenti in esame che vengono modellati come distribuzioni di probabilità sulle parole. Inizialmente vengono affrontate le applicazioni principali facendo riferimento a vari ambiti tra cui la giurisprudenza e la bioinformatica. Poi, l’elaborato procede ad esaminare nel dettaglio quattro approcci che hanno definito le basi per questa nuova area di ricerca. In particolare, i primi due si contraddistinguono per orientarsi al problema secondo un metodo algebrico lineare. Il primo affrontato è l’Analisi Semantica Latente (LSA), proposta da Deerwester et al. nel 1990, che basandosi sulla decomposizione a valori singolari (SVD) riduce la dimensionalità dei dati testuali per scoprire temi latenti nelle relazioni tra parole e documenti. Di seguito la Non- Negative Matrix Factorization (NMF), definita nel 1999 da Lee e Seung, che rappresenta una estensione diretta di LSA poiché permette di fattorizzare la matrice in ingresso in componenti non negative, offrendo maggiore interpretabilità dei risultati. Il terzo modello è l’Analisi Semantica Latente Probabilistica (PLSA), formulata da Hofmann nel 1999, che introduce un cambio di paradigma sviluppando un processo generativo probabilistico per spiegare la distribuzione dei temi nei documenti. Infine, viene descritta la Latent Dirichlet Allocation (LDA), introdotta nel 2003 da Blei, che rappresenta il modello più rappresentativo poiché evolve il precedente sfruttando la distribuzione di Dirichlet in un approccio bayesiano che si dimostra efficace in diversi contesti applicativi. La discussione dei modelli, oltre a comprendere esempi e spiegazioni di tecniche di ottimizzazione e inferenza, come l’algoritmo Expectation-Maximization (EM) e il Gibbs Sampling, è integrata dalla trattazione di specifiche metriche dette di topic coherence che permettono di valutare i risultati ottenuti dalle analisi dei testi. L’ultimo capitolo include un’applicazione pratica del modello LDA in cui vengono affrontate tutti le fasi del processo: dalla pre-elaborazione del dataset, all’interpretazione degli output. In sintesi, questa tesi ha l’obiettivo di approfondire alcuni approcci rappresentativi di topic modeling tra quelli proposti in letteratura, focalizzandosi su una spiegazione approfondita di tutti i loro aspetti.
Analisi ed applicazione di un algoritmo di Topic Modeling
MENEGHETTI, FEDERICO
2023/2024
Abstract
Questa tesi mira ad approfondire il topic modeling, cioè una tecnica di analisi statistica, utilizzata nell’ambito del text mining e della Knowledge Discovery Database, che permette di ricavare delle informazioni da un insieme molto vasto di dati. Nello specifico, si vogliono determinare i topic, ovvero gli argomenti affrontati nei documenti in esame che vengono modellati come distribuzioni di probabilità sulle parole. Inizialmente vengono affrontate le applicazioni principali facendo riferimento a vari ambiti tra cui la giurisprudenza e la bioinformatica. Poi, l’elaborato procede ad esaminare nel dettaglio quattro approcci che hanno definito le basi per questa nuova area di ricerca. In particolare, i primi due si contraddistinguono per orientarsi al problema secondo un metodo algebrico lineare. Il primo affrontato è l’Analisi Semantica Latente (LSA), proposta da Deerwester et al. nel 1990, che basandosi sulla decomposizione a valori singolari (SVD) riduce la dimensionalità dei dati testuali per scoprire temi latenti nelle relazioni tra parole e documenti. Di seguito la Non- Negative Matrix Factorization (NMF), definita nel 1999 da Lee e Seung, che rappresenta una estensione diretta di LSA poiché permette di fattorizzare la matrice in ingresso in componenti non negative, offrendo maggiore interpretabilità dei risultati. Il terzo modello è l’Analisi Semantica Latente Probabilistica (PLSA), formulata da Hofmann nel 1999, che introduce un cambio di paradigma sviluppando un processo generativo probabilistico per spiegare la distribuzione dei temi nei documenti. Infine, viene descritta la Latent Dirichlet Allocation (LDA), introdotta nel 2003 da Blei, che rappresenta il modello più rappresentativo poiché evolve il precedente sfruttando la distribuzione di Dirichlet in un approccio bayesiano che si dimostra efficace in diversi contesti applicativi. La discussione dei modelli, oltre a comprendere esempi e spiegazioni di tecniche di ottimizzazione e inferenza, come l’algoritmo Expectation-Maximization (EM) e il Gibbs Sampling, è integrata dalla trattazione di specifiche metriche dette di topic coherence che permettono di valutare i risultati ottenuti dalle analisi dei testi. L’ultimo capitolo include un’applicazione pratica del modello LDA in cui vengono affrontate tutti le fasi del processo: dalla pre-elaborazione del dataset, all’interpretazione degli output. In sintesi, questa tesi ha l’obiettivo di approfondire alcuni approcci rappresentativi di topic modeling tra quelli proposti in letteratura, focalizzandosi su una spiegazione approfondita di tutti i loro aspetti.File | Dimensione | Formato | |
---|---|---|---|
Analisi ed applicazione di un algoritmo di Topic Modeling.pdf
accesso aperto
Dimensione
1.25 MB
Formato
Adobe PDF
|
1.25 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/72174