Il fenomeno d'inflazione degli zeri si manifesta quando alcune unità statistiche del campione risultano inattive e di conseguenza presentano valore nullo per la variabile risposta. Ciò avviene, ad esempio, nel caso in cui sia di interesse studiare il numero di sigarette fumate o il numero di visite dal medico. In questi esempi, i non fumatori e coloro che non vanno dal medico non sono mai a rischio di sperimentare l’evento e devono essere trattati diversamente dai valori mancanti da cui differiscono per natura. Infatti, trattare gli zeri come dati mancanti causa una grave perdita di informazione e per tale ragione in letteratura sono presenti diversi metodi di analisi. Questo elaborato si concentra sulla descrizione e l'applicazione di metodi statistici sviluppati per l’analisi e il trattamento degli zeri generati nel caso dei dati di conteggio. In questo contesto vengono approfonditi i seguenti due approcci: modelli di machine learning e test di permutazione. Con il primo approccio, si vuole studiare la possibilità di estendere la logica dei modelli hurdle nel contesto del machine learning confrontando diversi modelli di classificazione al primo stadio e diversi modelli di regressione al secondo stadio. Il primo approccio, essendo di natura non parametrica, risolve il problema legato alle assunzioni distributive fatte dagli usuali test e modelli utilizzati per dati di conteggio con inflazione di zeri. Il test di permutazione ed i modelli di machine learning, estesi alla logica hurdle, vengono infine utilizzati per analizzare un caso aziendale reale in cui si è interessati a modellare il numero di contatti da parte dei clienti. Mentre i test di permutazione vengono utilizzati per l’analisi di un data set di piccole dimensioni, i modelli di machine learning sono utilizzati per l’analisi di un data set di grandi dimensioni.

Approcci Machine Learning e Test di Permutazione per Dati con Inflazione di Zeri: un caso di studio aziendale

FANESI, ALESSANDRO
2023/2024

Abstract

Il fenomeno d'inflazione degli zeri si manifesta quando alcune unità statistiche del campione risultano inattive e di conseguenza presentano valore nullo per la variabile risposta. Ciò avviene, ad esempio, nel caso in cui sia di interesse studiare il numero di sigarette fumate o il numero di visite dal medico. In questi esempi, i non fumatori e coloro che non vanno dal medico non sono mai a rischio di sperimentare l’evento e devono essere trattati diversamente dai valori mancanti da cui differiscono per natura. Infatti, trattare gli zeri come dati mancanti causa una grave perdita di informazione e per tale ragione in letteratura sono presenti diversi metodi di analisi. Questo elaborato si concentra sulla descrizione e l'applicazione di metodi statistici sviluppati per l’analisi e il trattamento degli zeri generati nel caso dei dati di conteggio. In questo contesto vengono approfonditi i seguenti due approcci: modelli di machine learning e test di permutazione. Con il primo approccio, si vuole studiare la possibilità di estendere la logica dei modelli hurdle nel contesto del machine learning confrontando diversi modelli di classificazione al primo stadio e diversi modelli di regressione al secondo stadio. Il primo approccio, essendo di natura non parametrica, risolve il problema legato alle assunzioni distributive fatte dagli usuali test e modelli utilizzati per dati di conteggio con inflazione di zeri. Il test di permutazione ed i modelli di machine learning, estesi alla logica hurdle, vengono infine utilizzati per analizzare un caso aziendale reale in cui si è interessati a modellare il numero di contatti da parte dei clienti. Mentre i test di permutazione vengono utilizzati per l’analisi di un data set di piccole dimensioni, i modelli di machine learning sono utilizzati per l’analisi di un data set di grandi dimensioni.
2023
Machine Learning Approaches and Permutation Tests for Zero-Inflated Data: a business real-case study
Test di permutazione
Machine Learning
Semi-parametrico
Inflazione di zeri
Dati di conteggio
File in questo prodotto:
File Dimensione Formato  
Fanesi_Alessandro.pdf

accesso riservato

Dimensione 1.66 MB
Formato Adobe PDF
1.66 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/68397