L’obiettivo di questo elaborato è affrontare il problema dell’estrazione automatica di termini appartenenti all’ambito della scienza e della tecnologia da documenti testuali. Grazie alla digitalizzazione e alla diffusione del Web sono oggi presenti grandi moli di documenti testuali, che, per loro natura, non sono strutturati. Per supportare attività quali l’accesso e l’analisi dei documenti si rende spesso necessaria l’estrazione di termini rilevanti a particolari domini. In questa tesi, l’attenzione è rivolta ai termini inerenti alla scienza e alla tecnologia. In un primo momento vengono analizzati i principali approcci all’elaborazione del linguaggio naturale (Natural Language Processing, NLP), con particolare attenzione a tecniche come il Part-of-Speech (PoS) tagging, il riconoscimento di entità denominate (Named Entity Recognition, NER) e l’identificazione di frasi significative (Word Phrases) che permettono l’estrazione dei termini da analizzare. Successivamente, l’elaborato esplora diverse fonti e metodi utilizzati per verificare l’appartenenza di un termine al dominio tecnoscientifico, concentrandosi in particolare su DBpedia. Viene approfondito il funzionamento delle ontologie ed un loro possibile utilizzo per conseguire l’obiettivo di questa tesi. La seconda parte dell’elaborato propone l’implementazione di una pipeline basata su spaCy, una libreria open-source per NLP, in grado di effettuare l’estrazione dei termini prendendo in input un insieme eterogeneo di documenti. Si procede dunque a valutare l’efficacia della soluzione proposta in relazione ai diversi input forniti. Infine, vengono discussi possibili sviluppi futuri del lavoro, in particolar modo relativamente all’addestramento di un modello predittivo in grado di completare l’estrazione in modo autonomo e preciso.
Approcci all'estrazione automatica di termini tecnoscientifici da documenti testuali
RESCHIOTTO, ANDREA
2024/2025
Abstract
L’obiettivo di questo elaborato è affrontare il problema dell’estrazione automatica di termini appartenenti all’ambito della scienza e della tecnologia da documenti testuali. Grazie alla digitalizzazione e alla diffusione del Web sono oggi presenti grandi moli di documenti testuali, che, per loro natura, non sono strutturati. Per supportare attività quali l’accesso e l’analisi dei documenti si rende spesso necessaria l’estrazione di termini rilevanti a particolari domini. In questa tesi, l’attenzione è rivolta ai termini inerenti alla scienza e alla tecnologia. In un primo momento vengono analizzati i principali approcci all’elaborazione del linguaggio naturale (Natural Language Processing, NLP), con particolare attenzione a tecniche come il Part-of-Speech (PoS) tagging, il riconoscimento di entità denominate (Named Entity Recognition, NER) e l’identificazione di frasi significative (Word Phrases) che permettono l’estrazione dei termini da analizzare. Successivamente, l’elaborato esplora diverse fonti e metodi utilizzati per verificare l’appartenenza di un termine al dominio tecnoscientifico, concentrandosi in particolare su DBpedia. Viene approfondito il funzionamento delle ontologie ed un loro possibile utilizzo per conseguire l’obiettivo di questa tesi. La seconda parte dell’elaborato propone l’implementazione di una pipeline basata su spaCy, una libreria open-source per NLP, in grado di effettuare l’estrazione dei termini prendendo in input un insieme eterogeneo di documenti. Si procede dunque a valutare l’efficacia della soluzione proposta in relazione ai diversi input forniti. Infine, vengono discussi possibili sviluppi futuri del lavoro, in particolar modo relativamente all’addestramento di un modello predittivo in grado di completare l’estrazione in modo autonomo e preciso.File | Dimensione | Formato | |
---|---|---|---|
Reschiotto_Andrea.pdf
accesso aperto
Dimensione
1.05 MB
Formato
Adobe PDF
|
1.05 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/82751