Gli algoritmi di link analysis tentano di dedurre la qualità di un documento dalla struttura topologica del grafo che rappresenta il web nella sua interezza o in un suo sottoinsieme. Presso l’Università di Padova si sta svolgendo un progetto di ricerca che tra i suoi obiettivi ha quello di valutare l’efficacia degli algoritmi di link analysis, rispetto alla determinazione della qualità dei documenti. Questa relazione tratta lo studio di fattibilità e la realizzazione di un sistema di crawling per l’ottenimento del grafo del web italiano, che sarà utilizzato poi nel progetto di ricerca. All’interno dello studio di fattibilità sono analizzati e valutati alcuni crawler open source ed è motivata la scelta di utilizzare il crawler Heritrix, tra quelli presentati. Vengono esposte le diverse soluzioni proposte per la creazione del modulo aggiuntivo, che s’integra ad Heritrix, per l’ottenimento del grafo del web. Sono poi trattate le strutture dati utilizzate per la memorizzazione e la loro finalizzazione nella fase di post-crawling, sono riportati i risultati dei test effettuati nelle diverse configurazioni del sistema, utilizzati per il dimensionamento e la configurazione del sistema nel suo complesso. Infine è esposto l’utilizzo di un limitatore di banda, che modifica automaticamente il limite nelle diverse ore del giorno, e un controllore delle connessioni contemporaneamente attive integrato al crawler, per sopperire ai limiti di banda e di connessioni TCP contemporanee imposti dalla rete della struttura in cui si svolge il crawling. Questo lavoro ha portato all’implementazione di un sistema di crawling adatto ad operare in condizioni di limitate risorse hardware e di rete. L’obiettivo perseguito nello sviluppo di questo lavoro è l’esecuzione di un crawling, il più possibile esaustivo del web italiano, nel minor tempo possibile e limitando le risorse necessarie, al fine di ottenere un grafo che rappresenti la struttura topologica del web italiano

Crawling del web italiano: valutazione delle soluzioni e gestione del crawling

Pengo, Gianluca
2010/2011

Abstract

Gli algoritmi di link analysis tentano di dedurre la qualità di un documento dalla struttura topologica del grafo che rappresenta il web nella sua interezza o in un suo sottoinsieme. Presso l’Università di Padova si sta svolgendo un progetto di ricerca che tra i suoi obiettivi ha quello di valutare l’efficacia degli algoritmi di link analysis, rispetto alla determinazione della qualità dei documenti. Questa relazione tratta lo studio di fattibilità e la realizzazione di un sistema di crawling per l’ottenimento del grafo del web italiano, che sarà utilizzato poi nel progetto di ricerca. All’interno dello studio di fattibilità sono analizzati e valutati alcuni crawler open source ed è motivata la scelta di utilizzare il crawler Heritrix, tra quelli presentati. Vengono esposte le diverse soluzioni proposte per la creazione del modulo aggiuntivo, che s’integra ad Heritrix, per l’ottenimento del grafo del web. Sono poi trattate le strutture dati utilizzate per la memorizzazione e la loro finalizzazione nella fase di post-crawling, sono riportati i risultati dei test effettuati nelle diverse configurazioni del sistema, utilizzati per il dimensionamento e la configurazione del sistema nel suo complesso. Infine è esposto l’utilizzo di un limitatore di banda, che modifica automaticamente il limite nelle diverse ore del giorno, e un controllore delle connessioni contemporaneamente attive integrato al crawler, per sopperire ai limiti di banda e di connessioni TCP contemporanee imposti dalla rete della struttura in cui si svolge il crawling. Questo lavoro ha portato all’implementazione di un sistema di crawling adatto ad operare in condizioni di limitate risorse hardware e di rete. L’obiettivo perseguito nello sviluppo di questo lavoro è l’esecuzione di un crawling, il più possibile esaustivo del web italiano, nel minor tempo possibile e limitando le risorse necessarie, al fine di ottenere un grafo che rappresenti la struttura topologica del web italiano
2010-09-30
59
crawling, web, web italiano
File in questo prodotto:
File Dimensione Formato  
Crawling_del_Web_Italiano.pdf

accesso aperto

Dimensione 766.6 kB
Formato Adobe PDF
766.6 kB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/14067