I primi sistemi di Information Retrieval lavoravano su collezioni di qualità omogenea come documenti giuridici e articoli medici. Con l’avvento del web, le tecniche tradizionali di reperimento dell’informazione sono risultate poco efficaci in quanto incapaci di distinguere la qualità dei documenti; di qui la necessità di ideare algoritmi in grado di selezionare le pagine web in base sia alla rilevanza che alla qualità. Tra questi algoritmi, un posto di rilievo hanno assunto quelli di link analysis, che cercano di inferire la qualità delle pagine web dalla struttura topologica del grafo associato al web. Il lavoro descritto in questa relazione è stato svolto all’interno di un progetto che ha lo scopo di valutare l’effettiva efficacia di tali algoritmi. Il nostro lavoro è consistito nello sviluppo di un’applicazione web che, data un’opportuna popolazione di pagine web, metterà a disposizione una serie di funzionalità mirate alla raccolta di giudizi sulla qualità delle pagine stesse. Il software citato esegue una pre-elaborazione dei risultati restituiti dai motori di ricerca e a tal proposito sono stati sviluppati tre moduli: Interrogatore, che si preoccuperà di estrapolare gli URL dai risultati; Campionatore che, data una teoria euristica ragionevole, filtrerà i risultati restituiti dall’Interrogatore e infine Downloader che si occuperà di memorizzare le pagine su disco

Progettazione e realizzazione di un'applicazione per la raccolta e il campionamento di pagine web

Marcato, Flavio
2010/2011

Abstract

I primi sistemi di Information Retrieval lavoravano su collezioni di qualità omogenea come documenti giuridici e articoli medici. Con l’avvento del web, le tecniche tradizionali di reperimento dell’informazione sono risultate poco efficaci in quanto incapaci di distinguere la qualità dei documenti; di qui la necessità di ideare algoritmi in grado di selezionare le pagine web in base sia alla rilevanza che alla qualità. Tra questi algoritmi, un posto di rilievo hanno assunto quelli di link analysis, che cercano di inferire la qualità delle pagine web dalla struttura topologica del grafo associato al web. Il lavoro descritto in questa relazione è stato svolto all’interno di un progetto che ha lo scopo di valutare l’effettiva efficacia di tali algoritmi. Il nostro lavoro è consistito nello sviluppo di un’applicazione web che, data un’opportuna popolazione di pagine web, metterà a disposizione una serie di funzionalità mirate alla raccolta di giudizi sulla qualità delle pagine stesse. Il software citato esegue una pre-elaborazione dei risultati restituiti dai motori di ricerca e a tal proposito sono stati sviluppati tre moduli: Interrogatore, che si preoccuperà di estrapolare gli URL dai risultati; Campionatore che, data una teoria euristica ragionevole, filtrerà i risultati restituiti dall’Interrogatore e infine Downloader che si occuperà di memorizzare le pagine su disco
2010-09-30
39
Link Analysis, Information Retrieval, Qualità, pagine web, Pagerank, Google
File in questo prodotto:
File Dimensione Formato  
TesiAnnoIII.pdf

accesso aperto

Dimensione 1.03 MB
Formato Adobe PDF
1.03 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/14128