La tesi vuole esplorare possibili miglioramenti all'algoritmo Isolation Forest (IF) per il rilevamento di anomalie, introducendo strategie ottimizzate di selezione degli alberi che sfruttano una piccola quantità di dati del validation set. Proponiamo un approccio "modified IF" che seleziona gli alberi con le migliori performance, basandosi sui loro punteggi di average precision nel validation set. Il metodo mostra miglioramenti significativi rispetto ad una normale IF, specialmente in scenari con pochi dati etichettati. Inoltre, introduciamo Greedy Isolation Forest (GrIF) un metodo che costruisce l'ensemble in modo iterativo aggiungendo alberi che massimizzano i guadagni marginali, tenendo conto delle correlazioni tra gli alberi. Esperimenti estesi su set di dati di benchmark dalla libreria ODDS confrontano questi metodi con la selezione brute-force e Random Forests (RF) supervisionate, rivelando che "modified IF" supera spesso RF quando i dati di validazione sono scarsi, mentre GrIF fornisce benefici marginali a un costo computazionale più elevato. I risultati evidenziano il valore della selezione guidata degli alberi negli ensemble non supervisionati, offrendo un equilibrio pratico tra prestazioni ed efficienza per le applicazioni reali di rilevamento di anomalie.
This thesis explores possible enhancements to the Isolation Forest (IF) algorithm for anomaly detection by introducing optimized tree selection strategies that leverage a small amount of labeled validation data. We propose a modified IF approach that selects the top-performing trees based on their individual average precision scores on validation data. We demonstrate significant performance improvements over the standard IF, particularly in scenarios with limited labeled data. Additionally, we introduce a Greedy Isolation Forest (GrIF) a method that iteratively builds the ensemble by adding trees that maximize marginal gains, accounting for inter-tree correlations. Extensive experiments on benchmark datasets from the ODDS library compare these methods against brute-force selection and supervised Random Forests (RF), revealing that the modified IF often outperforms RF when validation data is scarce, while GrIF provides marginal benefits at higher computational cost. The results highlight the value of guided tree selection in unsupervised ensembles, offering a practical balance between performance and efficiency for real-world anomaly detection applications.
Migliorare le performance di un'isolation forest ottimizzando la scelta dei suoi alberi
BOLDRIN, LUIGI
2024/2025
Abstract
La tesi vuole esplorare possibili miglioramenti all'algoritmo Isolation Forest (IF) per il rilevamento di anomalie, introducendo strategie ottimizzate di selezione degli alberi che sfruttano una piccola quantità di dati del validation set. Proponiamo un approccio "modified IF" che seleziona gli alberi con le migliori performance, basandosi sui loro punteggi di average precision nel validation set. Il metodo mostra miglioramenti significativi rispetto ad una normale IF, specialmente in scenari con pochi dati etichettati. Inoltre, introduciamo Greedy Isolation Forest (GrIF) un metodo che costruisce l'ensemble in modo iterativo aggiungendo alberi che massimizzano i guadagni marginali, tenendo conto delle correlazioni tra gli alberi. Esperimenti estesi su set di dati di benchmark dalla libreria ODDS confrontano questi metodi con la selezione brute-force e Random Forests (RF) supervisionate, rivelando che "modified IF" supera spesso RF quando i dati di validazione sono scarsi, mentre GrIF fornisce benefici marginali a un costo computazionale più elevato. I risultati evidenziano il valore della selezione guidata degli alberi negli ensemble non supervisionati, offrendo un equilibrio pratico tra prestazioni ed efficienza per le applicazioni reali di rilevamento di anomalie.| File | Dimensione | Formato | |
|---|---|---|---|
|
Boldrin_Luigi_2107766_master_thesis.pdf
accesso aperto
Dimensione
7.77 MB
Formato
Adobe PDF
|
7.77 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/94117