Nel linguaggio naturale, le parole possono subire delle variazioni dovute a diversi fattori, queste variazioni in linguistica vengono identificate come flessioni. Lo stemming è il processo che riduce una forma flessa di una parola alla sua forma radice, il che può essere cruciale nell'ambito dell'Information Retrieval. Basandosi sull'assunzione che termini che condividono la radici hanno solitamente un significato simile, il processo di stemming viene ampiamente utilizzato nell'Information Retrieval per migliorare le performance nel reperimento. L'obiettivo di questa tesi è analizzare e confrontare l'impatto di diversi algoritmi di stemming sull'efficacia di un sistema di Information Retrieval, basandosi su una serie di metriche mirate a valutare gli effetti degli stemmer sul recupero di documenti. Utilizzando la collezione TREC 2004 Robust, in combinazione con Elasticsearch e Python, è stata condotta un'analisi per determinare se e quali stemmer influiscono positivamente sull'efficacia del reperimento.
Confronto dell'impatto dei principali stemmer sull'efficacia di un sistema di Information Retrieval
BARATTO, RICCARDO
2022/2023
Abstract
Nel linguaggio naturale, le parole possono subire delle variazioni dovute a diversi fattori, queste variazioni in linguistica vengono identificate come flessioni. Lo stemming è il processo che riduce una forma flessa di una parola alla sua forma radice, il che può essere cruciale nell'ambito dell'Information Retrieval. Basandosi sull'assunzione che termini che condividono la radici hanno solitamente un significato simile, il processo di stemming viene ampiamente utilizzato nell'Information Retrieval per migliorare le performance nel reperimento. L'obiettivo di questa tesi è analizzare e confrontare l'impatto di diversi algoritmi di stemming sull'efficacia di un sistema di Information Retrieval, basandosi su una serie di metriche mirate a valutare gli effetti degli stemmer sul recupero di documenti. Utilizzando la collezione TREC 2004 Robust, in combinazione con Elasticsearch e Python, è stata condotta un'analisi per determinare se e quali stemmer influiscono positivamente sull'efficacia del reperimento.File | Dimensione | Formato | |
---|---|---|---|
Baratto_Riccardo.pdf
accesso aperto
Dimensione
272.19 kB
Formato
Adobe PDF
|
272.19 kB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/58647