Anomaly Detection: Metodi, Applicazioni e Sperimentazione su Dati Reali

L'Anomaly Detection è un processo fondamentale nell'analisi dei dati, utile per distinguere comportamenti normali da errori, frodi o malfunzionamenti. Quando i dati sono organizzati in serie temporali, la presenza di trend, stagionalità e autocorrelazione introduce nuove sfide rendendo l'AD un problema ancora più complesso. Per questo motivo, l'identificazione di anomalie su serie storiche è diventata una disciplina a sé stante e in questa tesi viene esplorata attraverso il metodo delle sliding windows. Questa tesi valuta l'efficacia di alcuni metodi di anomaly detection tramite una pipeline Python. In particolare vengono considerati k‑Nearest Neighbors, AutoEncoder e Isolation Forest applicati con sliding windows su più dataset reali etichettati. L'analisi dei risultati dimostra che Isolation Forest fornisce il miglior compromesso tra accuratezza e velocità di esecuzione, rendendolo ideale in molte situazioni. In parallelo, sono stati confrontati diversi criteri per la definizione della soglia di anomalia, dimostrando che la classica μ + 3σ non garantisce prestazioni ottimali e che, tra le alternative analizzate, alcune soglie si sono dimostrate più robuste.

Anomaly Detection: Metodi, Applicazioni e Sperimentazione su Dati Reali

ANSALDO, GABRIELE

2024/2025

Abstract

L'Anomaly Detection è un processo fondamentale nell'analisi dei dati, utile per distinguere comportamenti normali da errori, frodi o malfunzionamenti. Quando i dati sono organizzati in serie temporali, la presenza di trend, stagionalità e autocorrelazione introduce nuove sfide rendendo l'AD un problema ancora più complesso. Per questo motivo, l'identificazione di anomalie su serie storiche è diventata una disciplina a sé stante e in questa tesi viene esplorata attraverso il metodo delle sliding windows. Questa tesi valuta l'efficacia di alcuni metodi di anomaly detection tramite una pipeline Python. In particolare vengono considerati k‑Nearest Neighbors, AutoEncoder e Isolation Forest applicati con sliding windows su più dataset reali etichettati. L'analisi dei risultati dimostra che Isolation Forest fornisce il miglior compromesso tra accuratezza e velocità di esecuzione, rendendolo ideale in molte situazioni. In parallelo, sono stati confrontati diversi criteri per la definizione della soglia di anomalia, dimostrando che la classica μ + 3σ non garantisce prestazioni ottimali e che, tra le alternative analizzate, alcune soglie si sono dimostrate più robuste.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Dipartimento di Scienze Statistiche
			
	Corso di studio
	
				STATISTICA PER L'ECONOMIA E L'IMPRESA Laurea di Primo Livello (D.M. 270/2004)
			
	Anno Accademico
	
				2024
			
	Titolo inglese
	
				Anomaly Detection: Methods, Applications and Experimental Evaluation
			
	Parola chiave
	
				Anomaly Detection
Sperimentazione
Serie Storiche
			
	Relatore
	
				CECCARELLO, MATTEO
			
	Appare nelle tipologie:
	
				Lauree triennali

File in questo prodotto:

File	Dimensione	Formato
Ansaldo_Gabriele.pdf accesso aperto Dimensione 837.12 kB Formato Adobe PDF Visualizza/Apri	837.12 kB	Adobe PDF	Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/88502