Anomaly Detection represents an important area of research in machine learning consisting of the identification of unexpected patterns or events within a data set. This process assumes a crucial role in various applications, such as computer security, industrial systems monitoring or financial fraud detection. This thesis work aims to provide a comprehensive overview of Anomaly Detection in Machine Learning, exploring the theoretical principles, techniques and applications of this discipline. Initially, the conceptual foundations of Anomaly Detection will be introduced, including the unsupervised approach (which does not require a labeled training set), the handling of multivariate data (which consider the relationships between variables), and the distribution of anomalies (which may follow a Gaussian distribution or present more complex features). The heart of the thesis is devoted to an in-depth study of the Isolation Forest method, a promising solution for anomaly detection due to its ability to operate in an unsupervised mode. The basic principles underpinning the method are analyzed, with a focus on its mathematical formulation and algorithmic insights that make it a robust and efficient approach. Through this paper, therefore, we aim to provide an in-depth understanding of Anomaly Detection in machine learning, focusing on the Isolation Forest method as a key tool. The theoretical considerations presented will help improve the understanding and effectiveness of anomaly detection techniques, opening up new perspectives for the application of such methodologies in various engineering fields.

L'Anomaly Detection rappresenta un'importante area di ricerca nel campo dell'apprendimento automatico consistente nell'identificazione di pattern o eventi inaspettati all'interno di un insieme di dati. Questo processo assume un ruolo cruciale in diverse applicazioni, come la sicurezza informatica, il monitoraggio di sistemi industriali o la rilevazione di frodi finanziarie. Questo lavoro di tesi si propone di fornire una panoramica completa sull'Anomaly Detection in Machine Learning, esplorando i principi teorici, le tecniche e le applicazioni di questa disciplina. Inizialmente, verranno introdotti i fondamenti concettuali dell'Anomaly Detection, incluso l'approccio non supervisionato (che non richiede un training set etichettato), la gestione di dati multivariati (che considerano le relazioni tra le variabili), e la distribuzione delle anomalie (che può seguire una distribuzione gaussiana o presentare caratteristiche più complesse). Il cuore della tesi è dedicato all'approfondimento del metodo Isolation Forest, soluzione promettente per il rilevamento delle anomalie, grazie alla sua capacità di operare in modalità non supervisionata. Vengono analizzati i principi di base su cui si fonda il metodo, con particolare attenzione alla sua formulazione matematica e alle intuizioni algoritmiche che lo rendono un approccio robusto ed efficiente. Attraverso questo elaborato, dunque, si mira a fornire una comprensione approfondita dell'Anomaly Detection in machine learning, concentrandosi sul metodo Isolation Forest come strumento chiave. Le considerazioni teoriche presentate contribuiranno a migliorare la comprensione e l'efficacia delle tecniche di rilevamento delle anomalie, aprendo nuove prospettive per l'applicazione di tali metodologie in diversi ambiti ingegneristici.

Analisi Teorica dell'Anomaly Detection con Metodo Isolation Forest: Principi e Applicazioni

LONGHIN, DILETTA
2022/2023

Abstract

Anomaly Detection represents an important area of research in machine learning consisting of the identification of unexpected patterns or events within a data set. This process assumes a crucial role in various applications, such as computer security, industrial systems monitoring or financial fraud detection. This thesis work aims to provide a comprehensive overview of Anomaly Detection in Machine Learning, exploring the theoretical principles, techniques and applications of this discipline. Initially, the conceptual foundations of Anomaly Detection will be introduced, including the unsupervised approach (which does not require a labeled training set), the handling of multivariate data (which consider the relationships between variables), and the distribution of anomalies (which may follow a Gaussian distribution or present more complex features). The heart of the thesis is devoted to an in-depth study of the Isolation Forest method, a promising solution for anomaly detection due to its ability to operate in an unsupervised mode. The basic principles underpinning the method are analyzed, with a focus on its mathematical formulation and algorithmic insights that make it a robust and efficient approach. Through this paper, therefore, we aim to provide an in-depth understanding of Anomaly Detection in machine learning, focusing on the Isolation Forest method as a key tool. The theoretical considerations presented will help improve the understanding and effectiveness of anomaly detection techniques, opening up new perspectives for the application of such methodologies in various engineering fields.
2022
Theoretical Analysis of Anomaly Detection with Isolation Forest Method: Principles and Applications
L'Anomaly Detection rappresenta un'importante area di ricerca nel campo dell'apprendimento automatico consistente nell'identificazione di pattern o eventi inaspettati all'interno di un insieme di dati. Questo processo assume un ruolo cruciale in diverse applicazioni, come la sicurezza informatica, il monitoraggio di sistemi industriali o la rilevazione di frodi finanziarie. Questo lavoro di tesi si propone di fornire una panoramica completa sull'Anomaly Detection in Machine Learning, esplorando i principi teorici, le tecniche e le applicazioni di questa disciplina. Inizialmente, verranno introdotti i fondamenti concettuali dell'Anomaly Detection, incluso l'approccio non supervisionato (che non richiede un training set etichettato), la gestione di dati multivariati (che considerano le relazioni tra le variabili), e la distribuzione delle anomalie (che può seguire una distribuzione gaussiana o presentare caratteristiche più complesse). Il cuore della tesi è dedicato all'approfondimento del metodo Isolation Forest, soluzione promettente per il rilevamento delle anomalie, grazie alla sua capacità di operare in modalità non supervisionata. Vengono analizzati i principi di base su cui si fonda il metodo, con particolare attenzione alla sua formulazione matematica e alle intuizioni algoritmiche che lo rendono un approccio robusto ed efficiente. Attraverso questo elaborato, dunque, si mira a fornire una comprensione approfondita dell'Anomaly Detection in machine learning, concentrandosi sul metodo Isolation Forest come strumento chiave. Le considerazioni teoriche presentate contribuiranno a migliorare la comprensione e l'efficacia delle tecniche di rilevamento delle anomalie, aprendo nuove prospettive per l'applicazione di tali metodologie in diversi ambiti ingegneristici.
Machine Learning
Anomaly Detection
Isolation Forest
File in questo prodotto:
File Dimensione Formato  
Longhin_Diletta.pdf

accesso riservato

Dimensione 4.66 MB
Formato Adobe PDF
4.66 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/53334