Approcci all'estrazione automatica di termini tecnoscientifici da documenti testuali

L’obiettivo di questo elaborato è affrontare il problema dell’estrazione automatica di termini appartenenti all’ambito della scienza e della tecnologia da documenti testuali. Grazie alla digitalizzazione e alla diffusione del Web sono oggi presenti grandi moli di documenti testuali, che, per loro natura, non sono strutturati. Per supportare attività quali l’accesso e l’analisi dei documenti si rende spesso necessaria l’estrazione di termini rilevanti a particolari domini. In questa tesi, l’attenzione è rivolta ai termini inerenti alla scienza e alla tecnologia. In un primo momento vengono analizzati i principali approcci all’elaborazione del linguaggio naturale (Natural Language Processing, NLP), con particolare attenzione a tecniche come il Part-of-Speech (PoS) tagging, il riconoscimento di entità denominate (Named Entity Recognition, NER) e l’identificazione di frasi significative (Word Phrases) che permettono l’estrazione dei termini da analizzare. Successivamente, l’elaborato esplora diverse fonti e metodi utilizzati per verificare l’appartenenza di un termine al dominio tecnoscientifico, concentrandosi in particolare su DBpedia. Viene approfondito il funzionamento delle ontologie ed un loro possibile utilizzo per conseguire l’obiettivo di questa tesi. La seconda parte dell’elaborato propone l’implementazione di una pipeline basata su spaCy, una libreria open-source per NLP, in grado di effettuare l’estrazione dei termini prendendo in input un insieme eterogeneo di documenti. Si procede dunque a valutare l’efficacia della soluzione proposta in relazione ai diversi input forniti. Infine, vengono discussi possibili sviluppi futuri del lavoro, in particolar modo relativamente all’addestramento di un modello predittivo in grado di completare l’estrazione in modo autonomo e preciso.

Approcci all'estrazione automatica di termini tecnoscientifici da documenti testuali

RESCHIOTTO, ANDREA

2024/2025

Abstract

L’obiettivo di questo elaborato è affrontare il problema dell’estrazione automatica di termini appartenenti all’ambito della scienza e della tecnologia da documenti testuali. Grazie alla digitalizzazione e alla diffusione del Web sono oggi presenti grandi moli di documenti testuali, che, per loro natura, non sono strutturati. Per supportare attività quali l’accesso e l’analisi dei documenti si rende spesso necessaria l’estrazione di termini rilevanti a particolari domini. In questa tesi, l’attenzione è rivolta ai termini inerenti alla scienza e alla tecnologia. In un primo momento vengono analizzati i principali approcci all’elaborazione del linguaggio naturale (Natural Language Processing, NLP), con particolare attenzione a tecniche come il Part-of-Speech (PoS) tagging, il riconoscimento di entità denominate (Named Entity Recognition, NER) e l’identificazione di frasi significative (Word Phrases) che permettono l’estrazione dei termini da analizzare. Successivamente, l’elaborato esplora diverse fonti e metodi utilizzati per verificare l’appartenenza di un termine al dominio tecnoscientifico, concentrandosi in particolare su DBpedia. Viene approfondito il funzionamento delle ontologie ed un loro possibile utilizzo per conseguire l’obiettivo di questa tesi. La seconda parte dell’elaborato propone l’implementazione di una pipeline basata su spaCy, una libreria open-source per NLP, in grado di effettuare l’estrazione dei termini prendendo in input un insieme eterogeneo di documenti. Si procede dunque a valutare l’efficacia della soluzione proposta in relazione ai diversi input forniti. Infine, vengono discussi possibili sviluppi futuri del lavoro, in particolar modo relativamente all’addestramento di un modello predittivo in grado di completare l’estrazione in modo autonomo e preciso.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Dipartimento di Ingegneria dell'Informazione - DEI
			
	Corso di studio
	
				INGEGNERIA INFORMATICA Laurea di Primo Livello (D.M. 270/2004)
			
	Anno Accademico
	
				2024
			
	Titolo inglese
	
				Approaches to the automatic extraction of technoscientific terms from textual documents
			
	Parola chiave
	
				Analisi di testi
NLP
Estrazione termini
Linked Data
Tecnoscienza
			
	Relatore
	
				DI BUCCIO, EMANUELE
			
	Appare nelle tipologie:
	
				Lauree triennali

File in questo prodotto:

File	Dimensione	Formato
Reschiotto_Andrea.pdf accesso aperto Dimensione 1.05 MB Formato Adobe PDF Visualizza/Apri	1.05 MB	Adobe PDF	Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/82751