Nel linguaggio naturale, le parole possono subire delle variazioni dovute a diversi fattori, queste variazioni in linguistica vengono identificate come flessioni. Lo stemming è il processo che riduce una forma flessa di una parola alla sua forma radice, il che può essere cruciale nell'ambito dell'Information Retrieval. Basandosi sull'assunzione che termini che condividono la radici hanno solitamente un significato simile, il processo di stemming viene ampiamente utilizzato nell'Information Retrieval per migliorare le performance nel reperimento. L'obiettivo di questa tesi è analizzare e confrontare l'impatto di diversi algoritmi di stemming sull'efficacia di un sistema di Information Retrieval, basandosi su una serie di metriche mirate a valutare gli effetti degli stemmer sul recupero di documenti. Utilizzando la collezione TREC 2004 Robust, in combinazione con Elasticsearch e Python, è stata condotta un'analisi per determinare se e quali stemmer influiscono positivamente sull'efficacia del reperimento.

Confronto dell'impatto dei principali stemmer sull'efficacia di un sistema di Information Retrieval

BARATTO, RICCARDO
2022/2023

Abstract

Nel linguaggio naturale, le parole possono subire delle variazioni dovute a diversi fattori, queste variazioni in linguistica vengono identificate come flessioni. Lo stemming è il processo che riduce una forma flessa di una parola alla sua forma radice, il che può essere cruciale nell'ambito dell'Information Retrieval. Basandosi sull'assunzione che termini che condividono la radici hanno solitamente un significato simile, il processo di stemming viene ampiamente utilizzato nell'Information Retrieval per migliorare le performance nel reperimento. L'obiettivo di questa tesi è analizzare e confrontare l'impatto di diversi algoritmi di stemming sull'efficacia di un sistema di Information Retrieval, basandosi su una serie di metriche mirate a valutare gli effetti degli stemmer sul recupero di documenti. Utilizzando la collezione TREC 2004 Robust, in combinazione con Elasticsearch e Python, è stata condotta un'analisi per determinare se e quali stemmer influiscono positivamente sull'efficacia del reperimento.
2022
Comparison of the impact of major stemmers on the effectiveness of an Information Retrieval system
Stemming
Reperimento
Efficacia
File in questo prodotto:
File Dimensione Formato  
Baratto_Riccardo.pdf

accesso aperto

Dimensione 272.19 kB
Formato Adobe PDF
272.19 kB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/58647