La tesi approfondisce il tema delle interrogazioni prolisse, di cui si è proposta una definizione (per chiarire la differenza di significato tra il termine “prolisso” e il termine “lungo”). Si è costruita una collezione sperimentale a partire dalla TREC Robust 2004 contenente quattro insiemi di interrogazioni: corte, lunghe, lunghe e prolisse, corte e prolisse. Tali interrogazioni sono state sottoposte a valutazione umana per stabilirne la classe di appartenenza. Si è quindi proposto un metodo di classificazione automatico per distinguere tra le classi “prolisso” e “non prolisso”. Il classificatore è stato costruito secondo l’algoritmo C4.5 decision tree. Si sono implementate due tipologie di algoritmi per l’elaborazione efficace delle interrogazioni: un algoritmo per l’estrazione dei sinonimi e un algoritmo (di cui si propongono varie versioni) per il topic gisting, ossia per l’estrazione del succo del discorso. Tali algoritmi sfruttano i dati messi a disposizione da ConceptNet 5, un database di relazioni semantiche
Riconoscere ed elaborare interrogazioni prolisse
Moro, Federica
2012/2013
Abstract
La tesi approfondisce il tema delle interrogazioni prolisse, di cui si è proposta una definizione (per chiarire la differenza di significato tra il termine “prolisso” e il termine “lungo”). Si è costruita una collezione sperimentale a partire dalla TREC Robust 2004 contenente quattro insiemi di interrogazioni: corte, lunghe, lunghe e prolisse, corte e prolisse. Tali interrogazioni sono state sottoposte a valutazione umana per stabilirne la classe di appartenenza. Si è quindi proposto un metodo di classificazione automatico per distinguere tra le classi “prolisso” e “non prolisso”. Il classificatore è stato costruito secondo l’algoritmo C4.5 decision tree. Si sono implementate due tipologie di algoritmi per l’elaborazione efficace delle interrogazioni: un algoritmo per l’estrazione dei sinonimi e un algoritmo (di cui si propongono varie versioni) per il topic gisting, ossia per l’estrazione del succo del discorso. Tali algoritmi sfruttano i dati messi a disposizione da ConceptNet 5, un database di relazioni semanticheFile | Dimensione | Formato | |
---|---|---|---|
tesiMoro.pdf
accesso aperto
Dimensione
4.51 MB
Formato
Adobe PDF
|
4.51 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/16278