Crawling del web italiano: valutazione delle soluzioni e gestione del crawling

Gli algoritmi di link analysis tentano di dedurre la qualità di un documento dalla struttura topologica del grafo che rappresenta il web nella sua interezza o in un suo sottoinsieme. Presso l’Università di Padova si sta svolgendo un progetto di ricerca che tra i suoi obiettivi ha quello di valutare l’efficacia degli algoritmi di link analysis, rispetto alla determinazione della qualità dei documenti. Questa relazione tratta lo studio di fattibilità e la realizzazione di un sistema di crawling per l’ottenimento del grafo del web italiano, che sarà utilizzato poi nel progetto di ricerca. All’interno dello studio di fattibilità sono analizzati e valutati alcuni crawler open source ed è motivata la scelta di utilizzare il crawler Heritrix, tra quelli presentati. Vengono esposte le diverse soluzioni proposte per la creazione del modulo aggiuntivo, che s’integra ad Heritrix, per l’ottenimento del grafo del web. Sono poi trattate le strutture dati utilizzate per la memorizzazione e la loro finalizzazione nella fase di post-crawling, sono riportati i risultati dei test effettuati nelle diverse configurazioni del sistema, utilizzati per il dimensionamento e la configurazione del sistema nel suo complesso. Infine è esposto l’utilizzo di un limitatore di banda, che modifica automaticamente il limite nelle diverse ore del giorno, e un controllore delle connessioni contemporaneamente attive integrato al crawler, per sopperire ai limiti di banda e di connessioni TCP contemporanee imposti dalla rete della struttura in cui si svolge il crawling. Questo lavoro ha portato all’implementazione di un sistema di crawling adatto ad operare in condizioni di limitate risorse hardware e di rete. L’obiettivo perseguito nello sviluppo di questo lavoro è l’esecuzione di un crawling, il più possibile esaustivo del web italiano, nel minor tempo possibile e limitando le risorse necessarie, al fine di ottenere un grafo che rappresenti la struttura topologica del web italiano

Crawling del web italiano: valutazione delle soluzioni e gestione del crawling

Pengo, Gianluca

2010/2011

Abstract

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Scuola di Ingegneria
			
	Corso di studio
	
				INGEGNERIA INFORMATICA
			
	Anno Accademico
	
				2010-09-30
			
	Numero di pagine
	
				59
			
	Parola chiave
	
				crawling, web, web italiano
			
	Relatore
	
				Pretto, Luca
			
	Correlatore
	
				Peserico, Enoch
			
	Appare nelle tipologie:
	
				Lauree triennali

File in questo prodotto:

File	Dimensione	Formato
Crawling_del_Web_Italiano.pdf accesso aperto Dimensione 766.6 kB Formato Adobe PDF Visualizza/Apri	766.6 kB	Adobe PDF	Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/14067