Il fenomeno d'inflazione degli zeri si manifesta quando alcune unità statistiche del campione risultano inattive e di conseguenza presentano valore nullo per la variabile risposta. Ciò avviene, ad esempio, nel caso in cui sia di interesse studiare il numero di sigarette fumate o il numero di visite dal medico. In questi esempi, i non fumatori e coloro che non vanno dal medico non sono mai a rischio di sperimentare l’evento e devono essere trattati diversamente dai valori mancanti da cui differiscono per natura. Infatti, trattare gli zeri come dati mancanti causa una grave perdita di informazione e per tale ragione in letteratura sono presenti diversi metodi di analisi. Questo elaborato si concentra sulla descrizione e l'applicazione di metodi statistici sviluppati per l’analisi e il trattamento degli zeri generati nel caso dei dati di conteggio. In questo contesto vengono approfonditi i seguenti due approcci: modelli di machine learning e test di permutazione. Con il primo approccio, si vuole studiare la possibilità di estendere la logica dei modelli hurdle nel contesto del machine learning confrontando diversi modelli di classificazione al primo stadio e diversi modelli di regressione al secondo stadio. Il primo approccio, essendo di natura non parametrica, risolve il problema legato alle assunzioni distributive fatte dagli usuali test e modelli utilizzati per dati di conteggio con inflazione di zeri. Il test di permutazione ed i modelli di machine learning, estesi alla logica hurdle, vengono infine utilizzati per analizzare un caso aziendale reale in cui si è interessati a modellare il numero di contatti da parte dei clienti. Mentre i test di permutazione vengono utilizzati per l’analisi di un data set di piccole dimensioni, i modelli di machine learning sono utilizzati per l’analisi di un data set di grandi dimensioni.
Approcci Machine Learning e Test di Permutazione per Dati con Inflazione di Zeri: un caso di studio aziendale
FANESI, ALESSANDRO
2023/2024
Abstract
Il fenomeno d'inflazione degli zeri si manifesta quando alcune unità statistiche del campione risultano inattive e di conseguenza presentano valore nullo per la variabile risposta. Ciò avviene, ad esempio, nel caso in cui sia di interesse studiare il numero di sigarette fumate o il numero di visite dal medico. In questi esempi, i non fumatori e coloro che non vanno dal medico non sono mai a rischio di sperimentare l’evento e devono essere trattati diversamente dai valori mancanti da cui differiscono per natura. Infatti, trattare gli zeri come dati mancanti causa una grave perdita di informazione e per tale ragione in letteratura sono presenti diversi metodi di analisi. Questo elaborato si concentra sulla descrizione e l'applicazione di metodi statistici sviluppati per l’analisi e il trattamento degli zeri generati nel caso dei dati di conteggio. In questo contesto vengono approfonditi i seguenti due approcci: modelli di machine learning e test di permutazione. Con il primo approccio, si vuole studiare la possibilità di estendere la logica dei modelli hurdle nel contesto del machine learning confrontando diversi modelli di classificazione al primo stadio e diversi modelli di regressione al secondo stadio. Il primo approccio, essendo di natura non parametrica, risolve il problema legato alle assunzioni distributive fatte dagli usuali test e modelli utilizzati per dati di conteggio con inflazione di zeri. Il test di permutazione ed i modelli di machine learning, estesi alla logica hurdle, vengono infine utilizzati per analizzare un caso aziendale reale in cui si è interessati a modellare il numero di contatti da parte dei clienti. Mentre i test di permutazione vengono utilizzati per l’analisi di un data set di piccole dimensioni, i modelli di machine learning sono utilizzati per l’analisi di un data set di grandi dimensioni.File | Dimensione | Formato | |
---|---|---|---|
Fanesi_Alessandro.pdf
accesso riservato
Dimensione
1.66 MB
Formato
Adobe PDF
|
1.66 MB | Adobe PDF |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/68397