Understanding if an Artificial Intelligence model can process new data is of fundamental importance since it can cause error or, even worse, false positive predictions. Data drift is a particular real world problem for any machine and deep learning model and it occurs when the new data change the distribution of the feature values we given it during training. Our goal was to find suitable models-specific methods to detect possible data drift bypassing (when possible) the study of the training data and directly "open" the model and understand its limits.

Capire se un modello di Intelligenza Artificiale è in grado di elaborare nuovi dati è di fondamentale importanza poiché può causare errori o, peggio ancora, falsi positivi nelle previsioni. Il data drift è un problema reale per qualsiasi macchina e modello di deep learning e si verifica quando i nuovi dati hanno differente distribuzione rispetto ai valori delle caratteristiche che abbiamo fornito durante l’addestramento. Il nostro obiettivo era trovare metodi specifici per i modelli adatti a rilevare possibili derive dei dati aggirando lo studio dei dati di addestramento (quando possibile) e “aprendo” direttamente il modello per comprenderne i limiti.

Algorithmic Approaches for Detecting Data Shifts in Support of MLOps for Production-Scale Machine Learning

LAMBERTINI, LORENZO
2024/2025

Abstract

Understanding if an Artificial Intelligence model can process new data is of fundamental importance since it can cause error or, even worse, false positive predictions. Data drift is a particular real world problem for any machine and deep learning model and it occurs when the new data change the distribution of the feature values we given it during training. Our goal was to find suitable models-specific methods to detect possible data drift bypassing (when possible) the study of the training data and directly "open" the model and understand its limits.
2024
Algorithmic Approaches for Detecting Data Shifts in Support of MLOps for Production-Scale Machine Learning
Capire se un modello di Intelligenza Artificiale è in grado di elaborare nuovi dati è di fondamentale importanza poiché può causare errori o, peggio ancora, falsi positivi nelle previsioni. Il data drift è un problema reale per qualsiasi macchina e modello di deep learning e si verifica quando i nuovi dati hanno differente distribuzione rispetto ai valori delle caratteristiche che abbiamo fornito durante l’addestramento. Il nostro obiettivo era trovare metodi specifici per i modelli adatti a rilevare possibili derive dei dati aggirando lo studio dei dati di addestramento (quando possibile) e “aprendo” direttamente il modello per comprenderne i limiti.
Data Drift
Machine Learning
Random Forest
Drift Prediction
File in questo prodotto:
File Dimensione Formato  
Lambertini_Lorenzo.pdf

Accesso riservato

Dimensione 1.3 MB
Formato Adobe PDF
1.3 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/94401