Progettazione e realizzazione di un'applicazione per la raccolta e il campionamento di pagine web

I primi sistemi di Information Retrieval lavoravano su collezioni di qualità omogenea come documenti giuridici e articoli medici. Con l’avvento del web, le tecniche tradizionali di reperimento dell’informazione sono risultate poco efficaci in quanto incapaci di distinguere la qualità dei documenti; di qui la necessità di ideare algoritmi in grado di selezionare le pagine web in base sia alla rilevanza che alla qualità. Tra questi algoritmi, un posto di rilievo hanno assunto quelli di link analysis, che cercano di inferire la qualità delle pagine web dalla struttura topologica del grafo associato al web. Il lavoro descritto in questa relazione è stato svolto all’interno di un progetto che ha lo scopo di valutare l’effettiva efficacia di tali algoritmi. Il nostro lavoro è consistito nello sviluppo di un’applicazione web che, data un’opportuna popolazione di pagine web, metterà a disposizione una serie di funzionalità mirate alla raccolta di giudizi sulla qualità delle pagine stesse. Il software citato esegue una pre-elaborazione dei risultati restituiti dai motori di ricerca e a tal proposito sono stati sviluppati tre moduli: Interrogatore, che si preoccuperà di estrapolare gli URL dai risultati; Campionatore che, data una teoria euristica ragionevole, filtrerà i risultati restituiti dall’Interrogatore e infine Downloader che si occuperà di memorizzare le pagine su disco

Progettazione e realizzazione di un'applicazione per la raccolta e il campionamento di pagine web

Marcato, Flavio

2010/2011

Abstract

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Scuola di Ingegneria
			
	Corso di studio
	
				INGEGNERIA INFORMATICA
			
	Anno Accademico
	
				2010-09-30
			
	Numero di pagine
	
				39
			
	Parola chiave
	
				Link Analysis, Information Retrieval, Qualità, pagine web, Pagerank, 
Google
			
	Relatore
	
				Pretto, Luca
			
	Correlatore
	
				Peserico, Enoch
			
	Appare nelle tipologie:
	
				Lauree triennali

File in questo prodotto:

File	Dimensione	Formato
TesiAnnoIII.pdf accesso aperto Dimensione 1.03 MB Formato Adobe PDF Visualizza/Apri	1.03 MB	Adobe PDF	Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/14128