La statistica è una disciplina il cui interesse è in forte crescita per molti settori, dall'economia all'industria, dalla politica alla medicina, fino ad arrivare allo sport. Un aspetto che caratterizza tutti questi settori è il forte aumento della disponibilità di dati che c'è stato negli ultimi anni. Anche le modalità di acquisizione e salvataggio di tali dati sono in continua evoluzione e necessitano di strumenti di analisi sempre più evoluti. In questa tesi verranno presentati strumenti di analisi per dati cross sezionali che si rendono disponibili in batch. Potendo essere tali dati di grandi dimensioni, con il passare del tempo può risultare complicato averli tutti disponibili in memoria, quindi risulta importante essere in grado di aggiornare le stime senza poter utilizzare i dati pregressi, ma solo quelli presenti nell'ultimo batch. Un ambito in cui ciò è molto comune è quello sportivo, in cui risulta di particolare interesse poter presentare delle statistiche riassuntive immediatamente dopo aver acquisito i dati dell'ultima partita disputata. I dati relativi ad un'intera stagione cestistica si prestano quindi come ottimo campo d'applicazione per le metodologie di aggiornamento delle stime che verranno proposte. Tali metodologie possono essere sfruttate anche per analizzare dataset con un numero di osservazioni arbitrariamente grande, considerandoli come molti batch sequenziali. Ci si propone inoltre di trattare la dipendenza temporale delle osservazioni tramite l'introduzione di una funzione di peso. La tesi si organizza come segue: nel Capitolo 1 verrà presentata la tipologia di dati di riferimento che verranno utilizzati nel resto della tesi. Verranno quindi evidenziate le problematiche che si incontrano solitamente nell'analisi di questi e i vantaggi di applicare le soluzioni che verranno proposte nel seguito della tesi. Verrà inoltre spiegato brevemente l'obiettivo dell'analisi su un dataset reale contenente dati cestistici. Infine sarà fatta un'introduzione sul funzionamento del modello logistico e sulla correzione di Firth per diminuire la distorsione delle sue stime. Nel Capitolo 2 sarà affrontata la trattazione teorica di diverse metodologie per l'aggiornamento ricorsivo delle stime di un modello logistico. Inizialmente sarà spiegata la rho architecture proposta da Luo & Song (2020) per poi proporre una sua modificazione atta a considerare la dipendenza temporale dei dati, inserendo una funzione peso per permettere al modello di considerare maggiormente i dati più vicini temporalmente al momento di stima. Per tale funzione saranno fatte varie proposte, valutando le caratteristiche di ognuna. Verrà inoltre preso in considerazione un metodo basato sulla decomposizione QR della matrice del modello per aggiornare le stime di un modello logistico con riduzione della distorsione di Firth. Nel Capitolo 3 verrà analizzato un dataset contenente dati cestistici relativi ad un'intera stagione NBA con l'obiettivo di valutare quali sono le caratteristiche che portano un'azione ad essere più o meno pericolosa. Tale dataset sarà trattato come se ci si trovasse nel momento della raccolta dei dati che si rendono disponibili partita per partita. Durante la fase di analisi verranno applicate le metodologie di aggiornamento delle stime proposte nel Capitolo 2, comparandole e valutando i vantaggi e gli svantaggi di ognuna rispetto alle altre.
Aggiornamento ricorsivo delle stime in modelli di regressione per dati binari. Applicazione a dati NBA.
CARRARO, ENRICO
2022/2023
Abstract
La statistica è una disciplina il cui interesse è in forte crescita per molti settori, dall'economia all'industria, dalla politica alla medicina, fino ad arrivare allo sport. Un aspetto che caratterizza tutti questi settori è il forte aumento della disponibilità di dati che c'è stato negli ultimi anni. Anche le modalità di acquisizione e salvataggio di tali dati sono in continua evoluzione e necessitano di strumenti di analisi sempre più evoluti. In questa tesi verranno presentati strumenti di analisi per dati cross sezionali che si rendono disponibili in batch. Potendo essere tali dati di grandi dimensioni, con il passare del tempo può risultare complicato averli tutti disponibili in memoria, quindi risulta importante essere in grado di aggiornare le stime senza poter utilizzare i dati pregressi, ma solo quelli presenti nell'ultimo batch. Un ambito in cui ciò è molto comune è quello sportivo, in cui risulta di particolare interesse poter presentare delle statistiche riassuntive immediatamente dopo aver acquisito i dati dell'ultima partita disputata. I dati relativi ad un'intera stagione cestistica si prestano quindi come ottimo campo d'applicazione per le metodologie di aggiornamento delle stime che verranno proposte. Tali metodologie possono essere sfruttate anche per analizzare dataset con un numero di osservazioni arbitrariamente grande, considerandoli come molti batch sequenziali. Ci si propone inoltre di trattare la dipendenza temporale delle osservazioni tramite l'introduzione di una funzione di peso. La tesi si organizza come segue: nel Capitolo 1 verrà presentata la tipologia di dati di riferimento che verranno utilizzati nel resto della tesi. Verranno quindi evidenziate le problematiche che si incontrano solitamente nell'analisi di questi e i vantaggi di applicare le soluzioni che verranno proposte nel seguito della tesi. Verrà inoltre spiegato brevemente l'obiettivo dell'analisi su un dataset reale contenente dati cestistici. Infine sarà fatta un'introduzione sul funzionamento del modello logistico e sulla correzione di Firth per diminuire la distorsione delle sue stime. Nel Capitolo 2 sarà affrontata la trattazione teorica di diverse metodologie per l'aggiornamento ricorsivo delle stime di un modello logistico. Inizialmente sarà spiegata la rho architecture proposta da Luo & Song (2020) per poi proporre una sua modificazione atta a considerare la dipendenza temporale dei dati, inserendo una funzione peso per permettere al modello di considerare maggiormente i dati più vicini temporalmente al momento di stima. Per tale funzione saranno fatte varie proposte, valutando le caratteristiche di ognuna. Verrà inoltre preso in considerazione un metodo basato sulla decomposizione QR della matrice del modello per aggiornare le stime di un modello logistico con riduzione della distorsione di Firth. Nel Capitolo 3 verrà analizzato un dataset contenente dati cestistici relativi ad un'intera stagione NBA con l'obiettivo di valutare quali sono le caratteristiche che portano un'azione ad essere più o meno pericolosa. Tale dataset sarà trattato come se ci si trovasse nel momento della raccolta dei dati che si rendono disponibili partita per partita. Durante la fase di analisi verranno applicate le metodologie di aggiornamento delle stime proposte nel Capitolo 2, comparandole e valutando i vantaggi e gli svantaggi di ognuna rispetto alle altre.File | Dimensione | Formato | |
---|---|---|---|
Carraro_Enrico.pdf
accesso aperto
Dimensione
1.47 MB
Formato
Adobe PDF
|
1.47 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/52481