Il lavoro sviluppato in questo elaborato riguarda la realizzazione di un toolbox software per la scoperta di itemset statisticamente significativi all’interno di un dataset assegnato. Il toolbox permette di identificare quegli itemset il cui supporto si discosta significativamente da ciò che ci si potrebbe aspettare in un modello random del dataset stesso e quindi tali che il valore del supporto associato non risulti essere dovuto al caso. Il formato con cui i dataset di ingresso devono essere memorizzati è quello imposto dal workshop sul Frequent Itemset Mining Implementations (FIMI) del 2003. Il toolbox è stato sviluppato utilizzando C come linguaggio di programmazione. Questa scelta è stata preferita per consentire una gestione efficiente della memoria e per poter ottimizzare ulteriormente il codice in fase di compilazione, contenendo in questo modo i tempi di esecuzione del programma anche nel caso di dataset in ingresso di grosse dimensioni. La particolarità del toolbox realizzato riguarda l’implementazione al suo interno di una nuova strategia che consente di migliorare le prestazioni complessive, intese come diminuzione dei tempi d’esecuzione dell’algoritmo, senza che ciò però possa influire sulla qualità della soluzione restituita. Il programma è stato sviluppato avendo tra gli obiettivi quello della modularità, agevolando in questo modo l’estensione o la modifica in futuro di porzioni del codice, e quello del miglioramento delle prestazioni e aggiunta di funzionalità rispetto ad un tool software precedentemente creato per lo stesso scopo. Infine il toolbox è stato realizzato in maniera da facilitare la configurazione dei parametri d’ingresso tra cui appunto le misure di qualità inerenti l’insieme delle soluzioni restituite al termine dell’esecuzione

Un toolbox ottimizzato per la scoperta di itemset frequenti e stasticamente significativi. An optimized toolbox for the discovery of statistically significant frequent itemsets

Menegon, Federico
2012/2013

Abstract

Il lavoro sviluppato in questo elaborato riguarda la realizzazione di un toolbox software per la scoperta di itemset statisticamente significativi all’interno di un dataset assegnato. Il toolbox permette di identificare quegli itemset il cui supporto si discosta significativamente da ciò che ci si potrebbe aspettare in un modello random del dataset stesso e quindi tali che il valore del supporto associato non risulti essere dovuto al caso. Il formato con cui i dataset di ingresso devono essere memorizzati è quello imposto dal workshop sul Frequent Itemset Mining Implementations (FIMI) del 2003. Il toolbox è stato sviluppato utilizzando C come linguaggio di programmazione. Questa scelta è stata preferita per consentire una gestione efficiente della memoria e per poter ottimizzare ulteriormente il codice in fase di compilazione, contenendo in questo modo i tempi di esecuzione del programma anche nel caso di dataset in ingresso di grosse dimensioni. La particolarità del toolbox realizzato riguarda l’implementazione al suo interno di una nuova strategia che consente di migliorare le prestazioni complessive, intese come diminuzione dei tempi d’esecuzione dell’algoritmo, senza che ciò però possa influire sulla qualità della soluzione restituita. Il programma è stato sviluppato avendo tra gli obiettivi quello della modularità, agevolando in questo modo l’estensione o la modifica in futuro di porzioni del codice, e quello del miglioramento delle prestazioni e aggiunta di funzionalità rispetto ad un tool software precedentemente creato per lo stesso scopo. Infine il toolbox è stato realizzato in maniera da facilitare la configurazione dei parametri d’ingresso tra cui appunto le misure di qualità inerenti l’insieme delle soluzioni restituite al termine dell’esecuzione
2012-10-23
123
data mining, itemset, frequenti, significatività statistica, apriori
File in questo prodotto:
File Dimensione Formato  
Menegon_Federico_1014616.pdf

accesso aperto

Dimensione 1.52 MB
Formato Adobe PDF
1.52 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/16274