I topic model nascono come strumenti per ottenere una breve descrizione dei documenti di una collezione e allo stesso tempo preservare le relazioni statistiche essenziali tra le parole contenute nei testi; le rappresentazioni compatte di documenti sono utili, ad esempio, per effettuare classificazioni dei testi, costruire filtri collaborativi, valutare la similarità tra documenti o tra parole, valutare la rilevanza di documenti rispetto ad un'interrogazione ad un motore di ricerca. Questo problema di rappresentazione è affrontato dai topic model identificando all'interno di una collezione una serie di topic, definiti come distribuzioni di probabilità sulle parole di un vocabolario, e rappresentando i documenti come misture di quest'ultimi. Ad ogni topic corrisponde una tematica e i pesi che la distribuzione di ogni topic associa agli elementi del vocabolario possono essere utilizzati per identificarla. I topic model si sono dimostrati efficaci in diversi contesti applicativi, ad esempio quando utilizzati su collezioni di articoli di giornale e abstract accademici; tuttavia tendono a fornire risultati meno coerenti e interpretabili quando applicati ai post di microblog. I microblog sono piattaforme virtuali che permettono ai loro utenti di comunicare attraverso la pubblicazione costante di piccoli contenuti, detti micropost, i quali possono contenere brevi messaggi di testo, immagini o video. Un problema è l'estrazione di informazione da questa nuova forma di comunicazione caratterizzata da brevità, linguaggio informale, ed utilizzo di molti elementi testuali, come gli hashtag, non presenti nelle tipologie di testi su cui i primi topic model sono stati formulati. In letteratura sono stati proposti approcci ad-hoc per microblog, come Twitter-LDA e Hashtag-LDA, che abbandonano la rappresentazione di un documento come una mistura di topic in favore di una rappresentazione semplificata secondo cui ogni documento tratta di un unico topic. L'assunzione secondo cui tutti i documenti trattano di un unico topic può funzionare se tutti i documenti della collezione sono brevi, ma può diventare limitante quando la collezione è formata sia da documenti brevi e poco elaborati sia da documenti più lunghi e complessi. Un esempio è quello di Twitter in cui la maggior parte dei documenti (tweet) è formata da risposte semplici e concise alle pubblicazioni altrui, mentre una minoranza è formata da tweet più elaborati e complessi il cui scopo è esprimere un punto di vista originale, che potrebbe toccare più tematiche. In questa tesi si propone un nuovo topic model che preserva tutti i pregi di Twitter-LDA e Hahstag-LDA, ed allo stesso tempo cerca di alleviare l'assunzione sopra esposta, ritenuta troppo stringente. Più nello specifico, si ipotizza che considerare una distinzione tra documenti che trattano di un unico topic e documenti che trattano di più topic permetta di ottenere un miglior topic model, caratterizzato da topic significativi e facilmente interpretabili da un umano. Nel modello proposto si riprende la struttura latente di LDA per gestire i documenti più complessi, che trattano di più topic, e si riprende la struttura latente di Twitter-LDA e Hashtag-LDA per gestire i documenti più semplici, che trattano di un unico topic. Per effettuare inferenza a posteriori approssimata, si propone un algoritmo Collapsed Gibbs Sampler; inoltre, si dimostra che i Collapsed Gibbs Sampler per l'inferenza di LDA, Twitter-LDA e Hashtag-LDA possono essere facilmente ricavati a partire dalla formulazione dell'algoritmo del modello proposto in questa tesi. Questi quattro algoritmi sono stati implementati ed applicati ad una collezione di tweet creata ad-hoc utilizzando le Twitter API. Il nuovo modello è stato confrontato sperimentalmente con i suoi tre casi particolari. Infine si è mostrato come estrarre informazioni dalla collezione di tweet interpretando la struttura latente del modello.
Un algoritmo di topic modeling per microblog
TOTO, GIOVANNI
2021/2022
Abstract
I topic model nascono come strumenti per ottenere una breve descrizione dei documenti di una collezione e allo stesso tempo preservare le relazioni statistiche essenziali tra le parole contenute nei testi; le rappresentazioni compatte di documenti sono utili, ad esempio, per effettuare classificazioni dei testi, costruire filtri collaborativi, valutare la similarità tra documenti o tra parole, valutare la rilevanza di documenti rispetto ad un'interrogazione ad un motore di ricerca. Questo problema di rappresentazione è affrontato dai topic model identificando all'interno di una collezione una serie di topic, definiti come distribuzioni di probabilità sulle parole di un vocabolario, e rappresentando i documenti come misture di quest'ultimi. Ad ogni topic corrisponde una tematica e i pesi che la distribuzione di ogni topic associa agli elementi del vocabolario possono essere utilizzati per identificarla. I topic model si sono dimostrati efficaci in diversi contesti applicativi, ad esempio quando utilizzati su collezioni di articoli di giornale e abstract accademici; tuttavia tendono a fornire risultati meno coerenti e interpretabili quando applicati ai post di microblog. I microblog sono piattaforme virtuali che permettono ai loro utenti di comunicare attraverso la pubblicazione costante di piccoli contenuti, detti micropost, i quali possono contenere brevi messaggi di testo, immagini o video. Un problema è l'estrazione di informazione da questa nuova forma di comunicazione caratterizzata da brevità, linguaggio informale, ed utilizzo di molti elementi testuali, come gli hashtag, non presenti nelle tipologie di testi su cui i primi topic model sono stati formulati. In letteratura sono stati proposti approcci ad-hoc per microblog, come Twitter-LDA e Hashtag-LDA, che abbandonano la rappresentazione di un documento come una mistura di topic in favore di una rappresentazione semplificata secondo cui ogni documento tratta di un unico topic. L'assunzione secondo cui tutti i documenti trattano di un unico topic può funzionare se tutti i documenti della collezione sono brevi, ma può diventare limitante quando la collezione è formata sia da documenti brevi e poco elaborati sia da documenti più lunghi e complessi. Un esempio è quello di Twitter in cui la maggior parte dei documenti (tweet) è formata da risposte semplici e concise alle pubblicazioni altrui, mentre una minoranza è formata da tweet più elaborati e complessi il cui scopo è esprimere un punto di vista originale, che potrebbe toccare più tematiche. In questa tesi si propone un nuovo topic model che preserva tutti i pregi di Twitter-LDA e Hahstag-LDA, ed allo stesso tempo cerca di alleviare l'assunzione sopra esposta, ritenuta troppo stringente. Più nello specifico, si ipotizza che considerare una distinzione tra documenti che trattano di un unico topic e documenti che trattano di più topic permetta di ottenere un miglior topic model, caratterizzato da topic significativi e facilmente interpretabili da un umano. Nel modello proposto si riprende la struttura latente di LDA per gestire i documenti più complessi, che trattano di più topic, e si riprende la struttura latente di Twitter-LDA e Hashtag-LDA per gestire i documenti più semplici, che trattano di un unico topic. Per effettuare inferenza a posteriori approssimata, si propone un algoritmo Collapsed Gibbs Sampler; inoltre, si dimostra che i Collapsed Gibbs Sampler per l'inferenza di LDA, Twitter-LDA e Hashtag-LDA possono essere facilmente ricavati a partire dalla formulazione dell'algoritmo del modello proposto in questa tesi. Questi quattro algoritmi sono stati implementati ed applicati ad una collezione di tweet creata ad-hoc utilizzando le Twitter API. Il nuovo modello è stato confrontato sperimentalmente con i suoi tre casi particolari. Infine si è mostrato come estrarre informazioni dalla collezione di tweet interpretando la struttura latente del modello.File | Dimensione | Formato | |
---|---|---|---|
Toto_Giovanni.pdf
accesso aperto
Dimensione
4.03 MB
Formato
Adobe PDF
|
4.03 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/11379