L'Anomaly Detection è un processo fondamentale nell'analisi dei dati, utile per distinguere comportamenti normali da errori, frodi o malfunzionamenti. Quando i dati sono organizzati in serie temporali, la presenza di trend, stagionalità e autocorrelazione introduce nuove sfide rendendo l'AD un problema ancora più complesso. Per questo motivo, l'identificazione di anomalie su serie storiche è diventata una disciplina a sé stante e in questa tesi viene esplorata attraverso il metodo delle sliding windows. Questa tesi valuta l'efficacia di alcuni metodi di anomaly detection tramite una pipeline Python. In particolare vengono considerati k‑Nearest Neighbors, AutoEncoder e Isolation Forest applicati con sliding windows su più dataset reali etichettati. L'analisi dei risultati dimostra che Isolation Forest fornisce il miglior compromesso tra accuratezza e velocità di esecuzione, rendendolo ideale in molte situazioni. In parallelo, sono stati confrontati diversi criteri per la definizione della soglia di anomalia, dimostrando che la classica μ + 3σ non garantisce prestazioni ottimali e che, tra le alternative analizzate, alcune soglie si sono dimostrate più robuste.
Anomaly Detection: Metodi, Applicazioni e Sperimentazione su Dati Reali
ANSALDO, GABRIELE
2024/2025
Abstract
L'Anomaly Detection è un processo fondamentale nell'analisi dei dati, utile per distinguere comportamenti normali da errori, frodi o malfunzionamenti. Quando i dati sono organizzati in serie temporali, la presenza di trend, stagionalità e autocorrelazione introduce nuove sfide rendendo l'AD un problema ancora più complesso. Per questo motivo, l'identificazione di anomalie su serie storiche è diventata una disciplina a sé stante e in questa tesi viene esplorata attraverso il metodo delle sliding windows. Questa tesi valuta l'efficacia di alcuni metodi di anomaly detection tramite una pipeline Python. In particolare vengono considerati k‑Nearest Neighbors, AutoEncoder e Isolation Forest applicati con sliding windows su più dataset reali etichettati. L'analisi dei risultati dimostra che Isolation Forest fornisce il miglior compromesso tra accuratezza e velocità di esecuzione, rendendolo ideale in molte situazioni. In parallelo, sono stati confrontati diversi criteri per la definizione della soglia di anomalia, dimostrando che la classica μ + 3σ non garantisce prestazioni ottimali e che, tra le alternative analizzate, alcune soglie si sono dimostrate più robuste.| File | Dimensione | Formato | |
|---|---|---|---|
|
Ansaldo_Gabriele.pdf
accesso aperto
Dimensione
837.12 kB
Formato
Adobe PDF
|
837.12 kB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/88502