L’obiettivo di questo elaborato è affrontare il problema dell’estrazione automatica di termini appartenenti all’ambito della scienza e della tecnologia da documenti testuali. Grazie alla digitalizzazione e alla diffusione del Web sono oggi presenti grandi moli di documenti testuali, che, per loro natura, non sono strutturati. Per supportare attività quali l’accesso e l’analisi dei documenti si rende spesso necessaria l’estrazione di termini rilevanti a particolari domini. In questa tesi, l’attenzione è rivolta ai termini inerenti alla scienza e alla tecnologia. In un primo momento vengono analizzati i principali approcci all’elaborazione del linguaggio naturale (Natural Language Processing, NLP), con particolare attenzione a tecniche come il Part-of-Speech (PoS) tagging, il riconoscimento di entità denominate (Named Entity Recognition, NER) e l’identificazione di frasi significative (Word Phrases) che permettono l’estrazione dei termini da analizzare. Successivamente, l’elaborato esplora diverse fonti e metodi utilizzati per verificare l’appartenenza di un termine al dominio tecnoscientifico, concentrandosi in particolare su DBpedia. Viene approfondito il funzionamento delle ontologie ed un loro possibile utilizzo per conseguire l’obiettivo di questa tesi. La seconda parte dell’elaborato propone l’implementazione di una pipeline basata su spaCy, una libreria open-source per NLP, in grado di effettuare l’estrazione dei termini prendendo in input un insieme eterogeneo di documenti. Si procede dunque a valutare l’efficacia della soluzione proposta in relazione ai diversi input forniti. Infine, vengono discussi possibili sviluppi futuri del lavoro, in particolar modo relativamente all’addestramento di un modello predittivo in grado di completare l’estrazione in modo autonomo e preciso.

Approcci all'estrazione automatica di termini tecnoscientifici da documenti testuali

RESCHIOTTO, ANDREA
2024/2025

Abstract

L’obiettivo di questo elaborato è affrontare il problema dell’estrazione automatica di termini appartenenti all’ambito della scienza e della tecnologia da documenti testuali. Grazie alla digitalizzazione e alla diffusione del Web sono oggi presenti grandi moli di documenti testuali, che, per loro natura, non sono strutturati. Per supportare attività quali l’accesso e l’analisi dei documenti si rende spesso necessaria l’estrazione di termini rilevanti a particolari domini. In questa tesi, l’attenzione è rivolta ai termini inerenti alla scienza e alla tecnologia. In un primo momento vengono analizzati i principali approcci all’elaborazione del linguaggio naturale (Natural Language Processing, NLP), con particolare attenzione a tecniche come il Part-of-Speech (PoS) tagging, il riconoscimento di entità denominate (Named Entity Recognition, NER) e l’identificazione di frasi significative (Word Phrases) che permettono l’estrazione dei termini da analizzare. Successivamente, l’elaborato esplora diverse fonti e metodi utilizzati per verificare l’appartenenza di un termine al dominio tecnoscientifico, concentrandosi in particolare su DBpedia. Viene approfondito il funzionamento delle ontologie ed un loro possibile utilizzo per conseguire l’obiettivo di questa tesi. La seconda parte dell’elaborato propone l’implementazione di una pipeline basata su spaCy, una libreria open-source per NLP, in grado di effettuare l’estrazione dei termini prendendo in input un insieme eterogeneo di documenti. Si procede dunque a valutare l’efficacia della soluzione proposta in relazione ai diversi input forniti. Infine, vengono discussi possibili sviluppi futuri del lavoro, in particolar modo relativamente all’addestramento di un modello predittivo in grado di completare l’estrazione in modo autonomo e preciso.
2024
Approaches to the automatic extraction of technoscientific terms from textual documents
Analisi di testi
NLP
Estrazione termini
Linked Data
Tecnoscienza
File in questo prodotto:
File Dimensione Formato  
Reschiotto_Andrea.pdf

accesso aperto

Dimensione 1.05 MB
Formato Adobe PDF
1.05 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/82751