La tesi approfondisce il tema delle interrogazioni prolisse, di cui si è proposta una definizione (per chiarire la differenza di significato tra il termine “prolisso” e il termine “lungo”). Si è costruita una collezione sperimentale a partire dalla TREC Robust 2004 contenente quattro insiemi di interrogazioni: corte, lunghe, lunghe e prolisse, corte e prolisse. Tali interrogazioni sono state sottoposte a valutazione umana per stabilirne la classe di appartenenza. Si è quindi proposto un metodo di classificazione automatico per distinguere tra le classi “prolisso” e “non prolisso”. Il classificatore è stato costruito secondo l’algoritmo C4.5 decision tree. Si sono implementate due tipologie di algoritmi per l’elaborazione efficace delle interrogazioni: un algoritmo per l’estrazione dei sinonimi e un algoritmo (di cui si propongono varie versioni) per il topic gisting, ossia per l’estrazione del succo del discorso. Tali algoritmi sfruttano i dati messi a disposizione da ConceptNet 5, un database di relazioni semantiche

Riconoscere ed elaborare interrogazioni prolisse

Moro, Federica
2012/2013

Abstract

La tesi approfondisce il tema delle interrogazioni prolisse, di cui si è proposta una definizione (per chiarire la differenza di significato tra il termine “prolisso” e il termine “lungo”). Si è costruita una collezione sperimentale a partire dalla TREC Robust 2004 contenente quattro insiemi di interrogazioni: corte, lunghe, lunghe e prolisse, corte e prolisse. Tali interrogazioni sono state sottoposte a valutazione umana per stabilirne la classe di appartenenza. Si è quindi proposto un metodo di classificazione automatico per distinguere tra le classi “prolisso” e “non prolisso”. Il classificatore è stato costruito secondo l’algoritmo C4.5 decision tree. Si sono implementate due tipologie di algoritmi per l’elaborazione efficace delle interrogazioni: un algoritmo per l’estrazione dei sinonimi e un algoritmo (di cui si propongono varie versioni) per il topic gisting, ossia per l’estrazione del succo del discorso. Tali algoritmi sfruttano i dati messi a disposizione da ConceptNet 5, un database di relazioni semantiche
2012-10-23
89
reperimento dell’informazione, interrogazioni prolisse, topic gisting, ConceptNet 5, IR, verbose queries, topic gisting
File in questo prodotto:
File Dimensione Formato  
tesiMoro.pdf

accesso aperto

Dimensione 4.51 MB
Formato Adobe PDF
4.51 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/16278