Questa tesi mira ad approfondire il topic modeling, cioè una tecnica di analisi statistica, utilizzata nell’ambito del text mining e della Knowledge Discovery Database, che permette di ricavare delle informazioni da un insieme molto vasto di dati. Nello specifico, si vogliono determinare i topic, ovvero gli argomenti affrontati nei documenti in esame che vengono modellati come distribuzioni di probabilità sulle parole. Inizialmente vengono affrontate le applicazioni principali facendo riferimento a vari ambiti tra cui la giurisprudenza e la bioinformatica. Poi, l’elaborato procede ad esaminare nel dettaglio quattro approcci che hanno definito le basi per questa nuova area di ricerca. In particolare, i primi due si contraddistinguono per orientarsi al problema secondo un metodo algebrico lineare. Il primo affrontato è l’Analisi Semantica Latente (LSA), proposta da Deerwester et al. nel 1990, che basandosi sulla decomposizione a valori singolari (SVD) riduce la dimensionalità dei dati testuali per scoprire temi latenti nelle relazioni tra parole e documenti. Di seguito la Non- Negative Matrix Factorization (NMF), definita nel 1999 da Lee e Seung, che rappresenta una estensione diretta di LSA poiché permette di fattorizzare la matrice in ingresso in componenti non negative, offrendo maggiore interpretabilità dei risultati. Il terzo modello è l’Analisi Semantica Latente Probabilistica (PLSA), formulata da Hofmann nel 1999, che introduce un cambio di paradigma sviluppando un processo generativo probabilistico per spiegare la distribuzione dei temi nei documenti. Infine, viene descritta la Latent Dirichlet Allocation (LDA), introdotta nel 2003 da Blei, che rappresenta il modello più rappresentativo poiché evolve il precedente sfruttando la distribuzione di Dirichlet in un approccio bayesiano che si dimostra efficace in diversi contesti applicativi. La discussione dei modelli, oltre a comprendere esempi e spiegazioni di tecniche di ottimizzazione e inferenza, come l’algoritmo Expectation-Maximization (EM) e il Gibbs Sampling, è integrata dalla trattazione di specifiche metriche dette di topic coherence che permettono di valutare i risultati ottenuti dalle analisi dei testi. L’ultimo capitolo include un’applicazione pratica del modello LDA in cui vengono affrontate tutti le fasi del processo: dalla pre-elaborazione del dataset, all’interpretazione degli output. In sintesi, questa tesi ha l’obiettivo di approfondire alcuni approcci rappresentativi di topic modeling tra quelli proposti in letteratura, focalizzandosi su una spiegazione approfondita di tutti i loro aspetti.

Analisi ed applicazione di un algoritmo di Topic Modeling

MENEGHETTI, FEDERICO
2023/2024

Abstract

Questa tesi mira ad approfondire il topic modeling, cioè una tecnica di analisi statistica, utilizzata nell’ambito del text mining e della Knowledge Discovery Database, che permette di ricavare delle informazioni da un insieme molto vasto di dati. Nello specifico, si vogliono determinare i topic, ovvero gli argomenti affrontati nei documenti in esame che vengono modellati come distribuzioni di probabilità sulle parole. Inizialmente vengono affrontate le applicazioni principali facendo riferimento a vari ambiti tra cui la giurisprudenza e la bioinformatica. Poi, l’elaborato procede ad esaminare nel dettaglio quattro approcci che hanno definito le basi per questa nuova area di ricerca. In particolare, i primi due si contraddistinguono per orientarsi al problema secondo un metodo algebrico lineare. Il primo affrontato è l’Analisi Semantica Latente (LSA), proposta da Deerwester et al. nel 1990, che basandosi sulla decomposizione a valori singolari (SVD) riduce la dimensionalità dei dati testuali per scoprire temi latenti nelle relazioni tra parole e documenti. Di seguito la Non- Negative Matrix Factorization (NMF), definita nel 1999 da Lee e Seung, che rappresenta una estensione diretta di LSA poiché permette di fattorizzare la matrice in ingresso in componenti non negative, offrendo maggiore interpretabilità dei risultati. Il terzo modello è l’Analisi Semantica Latente Probabilistica (PLSA), formulata da Hofmann nel 1999, che introduce un cambio di paradigma sviluppando un processo generativo probabilistico per spiegare la distribuzione dei temi nei documenti. Infine, viene descritta la Latent Dirichlet Allocation (LDA), introdotta nel 2003 da Blei, che rappresenta il modello più rappresentativo poiché evolve il precedente sfruttando la distribuzione di Dirichlet in un approccio bayesiano che si dimostra efficace in diversi contesti applicativi. La discussione dei modelli, oltre a comprendere esempi e spiegazioni di tecniche di ottimizzazione e inferenza, come l’algoritmo Expectation-Maximization (EM) e il Gibbs Sampling, è integrata dalla trattazione di specifiche metriche dette di topic coherence che permettono di valutare i risultati ottenuti dalle analisi dei testi. L’ultimo capitolo include un’applicazione pratica del modello LDA in cui vengono affrontate tutti le fasi del processo: dalla pre-elaborazione del dataset, all’interpretazione degli output. In sintesi, questa tesi ha l’obiettivo di approfondire alcuni approcci rappresentativi di topic modeling tra quelli proposti in letteratura, focalizzandosi su una spiegazione approfondita di tutti i loro aspetti.
2023
Analysis and application of a Topic Modeling algorithm
Topic Modeling
LDA
Algoritmo
File in questo prodotto:
File Dimensione Formato  
Analisi ed applicazione di un algoritmo di Topic Modeling.pdf

accesso aperto

Dimensione 1.25 MB
Formato Adobe PDF
1.25 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/72174