Aggiornamento ricorsivo delle stime in modelli di regressione per dati binari. Applicazione a dati NBA.

La statistica è una disciplina il cui interesse è in forte crescita per molti settori, dall'economia all'industria, dalla politica alla medicina, fino ad arrivare allo sport. Un aspetto che caratterizza tutti questi settori è il forte aumento della disponibilità di dati che c'è stato negli ultimi anni. Anche le modalità di acquisizione e salvataggio di tali dati sono in continua evoluzione e necessitano di strumenti di analisi sempre più evoluti. In questa tesi verranno presentati strumenti di analisi per dati cross sezionali che si rendono disponibili in batch. Potendo essere tali dati di grandi dimensioni, con il passare del tempo può risultare complicato averli tutti disponibili in memoria, quindi risulta importante essere in grado di aggiornare le stime senza poter utilizzare i dati pregressi, ma solo quelli presenti nell'ultimo batch. Un ambito in cui ciò è molto comune è quello sportivo, in cui risulta di particolare interesse poter presentare delle statistiche riassuntive immediatamente dopo aver acquisito i dati dell'ultima partita disputata. I dati relativi ad un'intera stagione cestistica si prestano quindi come ottimo campo d'applicazione per le metodologie di aggiornamento delle stime che verranno proposte. Tali metodologie possono essere sfruttate anche per analizzare dataset con un numero di osservazioni arbitrariamente grande, considerandoli come molti batch sequenziali. Ci si propone inoltre di trattare la dipendenza temporale delle osservazioni tramite l'introduzione di una funzione di peso. La tesi si organizza come segue: nel Capitolo 1 verrà presentata la tipologia di dati di riferimento che verranno utilizzati nel resto della tesi. Verranno quindi evidenziate le problematiche che si incontrano solitamente nell'analisi di questi e i vantaggi di applicare le soluzioni che verranno proposte nel seguito della tesi. Verrà inoltre spiegato brevemente l'obiettivo dell'analisi su un dataset reale contenente dati cestistici. Infine sarà fatta un'introduzione sul funzionamento del modello logistico e sulla correzione di Firth per diminuire la distorsione delle sue stime. Nel Capitolo 2 sarà affrontata la trattazione teorica di diverse metodologie per l'aggiornamento ricorsivo delle stime di un modello logistico. Inizialmente sarà spiegata la rho architecture proposta da Luo & Song (2020) per poi proporre una sua modificazione atta a considerare la dipendenza temporale dei dati, inserendo una funzione peso per permettere al modello di considerare maggiormente i dati più vicini temporalmente al momento di stima. Per tale funzione saranno fatte varie proposte, valutando le caratteristiche di ognuna. Verrà inoltre preso in considerazione un metodo basato sulla decomposizione QR della matrice del modello per aggiornare le stime di un modello logistico con riduzione della distorsione di Firth. Nel Capitolo 3 verrà analizzato un dataset contenente dati cestistici relativi ad un'intera stagione NBA con l'obiettivo di valutare quali sono le caratteristiche che portano un'azione ad essere più o meno pericolosa. Tale dataset sarà trattato come se ci si trovasse nel momento della raccolta dei dati che si rendono disponibili partita per partita. Durante la fase di analisi verranno applicate le metodologie di aggiornamento delle stime proposte nel Capitolo 2, comparandole e valutando i vantaggi e gli svantaggi di ognuna rispetto alle altre.

Aggiornamento ricorsivo delle stime in modelli di regressione per dati binari. Applicazione a dati NBA.

CARRARO, ENRICO

2022/2023

Abstract

La statistica è una disciplina il cui interesse è in forte crescita per molti settori, dall'economia all'industria, dalla politica alla medicina, fino ad arrivare allo sport. Un aspetto che caratterizza tutti questi settori è il forte aumento della disponibilità di dati che c'è stato negli ultimi anni. Anche le modalità di acquisizione e salvataggio di tali dati sono in continua evoluzione e necessitano di strumenti di analisi sempre più evoluti. In questa tesi verranno presentati strumenti di analisi per dati cross sezionali che si rendono disponibili in batch. Potendo essere tali dati di grandi dimensioni, con il passare del tempo può risultare complicato averli tutti disponibili in memoria, quindi risulta importante essere in grado di aggiornare le stime senza poter utilizzare i dati pregressi, ma solo quelli presenti nell'ultimo batch. Un ambito in cui ciò è molto comune è quello sportivo, in cui risulta di particolare interesse poter presentare delle statistiche riassuntive immediatamente dopo aver acquisito i dati dell'ultima partita disputata. I dati relativi ad un'intera stagione cestistica si prestano quindi come ottimo campo d'applicazione per le metodologie di aggiornamento delle stime che verranno proposte. Tali metodologie possono essere sfruttate anche per analizzare dataset con un numero di osservazioni arbitrariamente grande, considerandoli come molti batch sequenziali. Ci si propone inoltre di trattare la dipendenza temporale delle osservazioni tramite l'introduzione di una funzione di peso. La tesi si organizza come segue: nel Capitolo 1 verrà presentata la tipologia di dati di riferimento che verranno utilizzati nel resto della tesi. Verranno quindi evidenziate le problematiche che si incontrano solitamente nell'analisi di questi e i vantaggi di applicare le soluzioni che verranno proposte nel seguito della tesi. Verrà inoltre spiegato brevemente l'obiettivo dell'analisi su un dataset reale contenente dati cestistici. Infine sarà fatta un'introduzione sul funzionamento del modello logistico e sulla correzione di Firth per diminuire la distorsione delle sue stime. Nel Capitolo 2 sarà affrontata la trattazione teorica di diverse metodologie per l'aggiornamento ricorsivo delle stime di un modello logistico. Inizialmente sarà spiegata la rho architecture proposta da Luo & Song (2020) per poi proporre una sua modificazione atta a considerare la dipendenza temporale dei dati, inserendo una funzione peso per permettere al modello di considerare maggiormente i dati più vicini temporalmente al momento di stima. Per tale funzione saranno fatte varie proposte, valutando le caratteristiche di ognuna. Verrà inoltre preso in considerazione un metodo basato sulla decomposizione QR della matrice del modello per aggiornare le stime di un modello logistico con riduzione della distorsione di Firth. Nel Capitolo 3 verrà analizzato un dataset contenente dati cestistici relativi ad un'intera stagione NBA con l'obiettivo di valutare quali sono le caratteristiche che portano un'azione ad essere più o meno pericolosa. Tale dataset sarà trattato come se ci si trovasse nel momento della raccolta dei dati che si rendono disponibili partita per partita. Durante la fase di analisi verranno applicate le metodologie di aggiornamento delle stime proposte nel Capitolo 2, comparandole e valutando i vantaggi e gli svantaggi di ognuna rispetto alle altre.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Dipartimento di Scienze Statistiche
			
	Corso di studio
	
				SCIENZE STATISTICHE Laurea Magistrale (D.M. 270/2004)
			
	Anno Accademico
	
				2022
			
	Titolo inglese
	
				Recursive updating of estimates in binary regression models. Application to NBA data.
			
	Parola chiave
	
				Aggiornamento stime
Flussi di dati
Dati binari
			
	Relatore
	
				SARTORI, NICOLA
			
	Appare nelle tipologie:
	
				Lauree magistrali

File in questo prodotto:

File	Dimensione	Formato
Carraro_Enrico.pdf accesso aperto Dimensione 1.47 MB Formato Adobe PDF Visualizza/Apri	1.47 MB	Adobe PDF	Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/52481