Negli ultimi anni i dati provenienti dagli sport sono sempre più richiesti ed utilizzati a fini di analisi statistica, in questo elaborato si è, quindi, cercato di trovare una connessione tra la probabilità di infortunio nei calciatori di 5 squadre di Serie A e alcune variabili riguardanti gli sforzi degli stessi giocatori. In particolare, l’azienda Exelio srl mi ha fornito dei dati sugli allenamenti e partite degli atleti in questione nel periodo post-lockdown causato dal COVID, quindi da maggio ad agosto 2020 circa. La tesi si organizza nel modo seguente: nel Capitolo 1, si presentano i due insiemi di dati a disposizione. Il primo è un database fornito dall'azienda che raccoglie i dati di allenamenti e partite relativi al campionato di Serie A da maggio ad agosto circa del 2020. Questo insieme di dati è stato rielaborato e modificato fino ad arrivare ad ottenere una struttura il più adatta possibile al nostro scopo, costruendo anche la variabile risposta, di tipo dicotomico, che indica se il giocatore in questione si è infortunato oppure no in quel giorno. Il secondo è un database relativo ai soli giocatori che hanno subito uno stop durante questi mesi in cui si hanno maggiori informazioni relative all'infortunio. Il Capitolo 2 presenta le variabili che verranno usate nell'implementazione dei modelli. In particolare, alcune di queste sono state scelte dopo una revisione della letteratura presente sull'argomento. Si sono, quindi, riportati i risultati ottenuti in vari articoli e un'analisi esplorativa delle suddette variabili. Questa analisi è stata fatta sia comparando le osservazioni delle singole variabili tra le squadre, sia mettendo in evidenza i diversi valori nelle sessioni in cui il giocatore non si infortuna con quelle dove, invece, avviene lo stop dell’atleta. Nel Capitolo 3, invece, vengono illustrati i modelli che verranno usati. Viene, in particolare, presentato l'approccio bayesiano, che si riesce ad applicare al caso logistico sfruttando la tecnica di data augmentation suggerita da Polson e Scott. Scegliendo per le distribuzioni a-priori dei coefficienti della regressione logistica bayesiana una distribuzione Normale e condizionandosi alla variabile generata dalla distribuzione Polya-Gamma, appositamente creata, si ottiene come distribuzione a-posteriori per i parametri del modello una forma chiusa Normale con media e varianza aggiornate. Inoltre, la distribuzione a-posteriori della variabile Polya-Gamma, resta tale con una semplice modifica dei parametri. In questo modo, si può costruire un algoritmo Gibbs Sampling adatto. Infine, il Capitolo 4 presenta i risultati ottenuti applicando le tecniche presentate sia ai dati forniti dall'azienda sia a delle simulazioni. Queste ultime, in particolare, sono state implementate dopo un'analisi dell'andamento approssimato delle covariate utilizzate. In questo modo, si è potuto aumentare il numero di giocatori infortunati ispirandosi dai dati realmente raccolti e sfruttando la possibilità di simulare contemporaneamente più catene fatte partire da punti diversi, si è valutata la convergenza di queste ultime e le nuove stime ottenute. Alla luce dei risultati ottenuti nei modelli implementati, si ritiene che il modello con 7 covariate senza intercetta ottenuto tramite backward selection di un set di variabili più ampio, possa dare delle informazioni interessanti sulla criticità di alcune variabili nel rischio di infortunio degli atleti. Monitorando maggiormente queste rilevazioni, si potrebbe considerare di preparare allenamenti ad-hoc in alcuni momenti della stagione sportiva per scongiurare eventuali stop.

Analisi dei fattori di rischio per la prevenzione degli infortuni dei calciatori

COSTAPERARIA, VITTORIO
2021/2022

Abstract

Negli ultimi anni i dati provenienti dagli sport sono sempre più richiesti ed utilizzati a fini di analisi statistica, in questo elaborato si è, quindi, cercato di trovare una connessione tra la probabilità di infortunio nei calciatori di 5 squadre di Serie A e alcune variabili riguardanti gli sforzi degli stessi giocatori. In particolare, l’azienda Exelio srl mi ha fornito dei dati sugli allenamenti e partite degli atleti in questione nel periodo post-lockdown causato dal COVID, quindi da maggio ad agosto 2020 circa. La tesi si organizza nel modo seguente: nel Capitolo 1, si presentano i due insiemi di dati a disposizione. Il primo è un database fornito dall'azienda che raccoglie i dati di allenamenti e partite relativi al campionato di Serie A da maggio ad agosto circa del 2020. Questo insieme di dati è stato rielaborato e modificato fino ad arrivare ad ottenere una struttura il più adatta possibile al nostro scopo, costruendo anche la variabile risposta, di tipo dicotomico, che indica se il giocatore in questione si è infortunato oppure no in quel giorno. Il secondo è un database relativo ai soli giocatori che hanno subito uno stop durante questi mesi in cui si hanno maggiori informazioni relative all'infortunio. Il Capitolo 2 presenta le variabili che verranno usate nell'implementazione dei modelli. In particolare, alcune di queste sono state scelte dopo una revisione della letteratura presente sull'argomento. Si sono, quindi, riportati i risultati ottenuti in vari articoli e un'analisi esplorativa delle suddette variabili. Questa analisi è stata fatta sia comparando le osservazioni delle singole variabili tra le squadre, sia mettendo in evidenza i diversi valori nelle sessioni in cui il giocatore non si infortuna con quelle dove, invece, avviene lo stop dell’atleta. Nel Capitolo 3, invece, vengono illustrati i modelli che verranno usati. Viene, in particolare, presentato l'approccio bayesiano, che si riesce ad applicare al caso logistico sfruttando la tecnica di data augmentation suggerita da Polson e Scott. Scegliendo per le distribuzioni a-priori dei coefficienti della regressione logistica bayesiana una distribuzione Normale e condizionandosi alla variabile generata dalla distribuzione Polya-Gamma, appositamente creata, si ottiene come distribuzione a-posteriori per i parametri del modello una forma chiusa Normale con media e varianza aggiornate. Inoltre, la distribuzione a-posteriori della variabile Polya-Gamma, resta tale con una semplice modifica dei parametri. In questo modo, si può costruire un algoritmo Gibbs Sampling adatto. Infine, il Capitolo 4 presenta i risultati ottenuti applicando le tecniche presentate sia ai dati forniti dall'azienda sia a delle simulazioni. Queste ultime, in particolare, sono state implementate dopo un'analisi dell'andamento approssimato delle covariate utilizzate. In questo modo, si è potuto aumentare il numero di giocatori infortunati ispirandosi dai dati realmente raccolti e sfruttando la possibilità di simulare contemporaneamente più catene fatte partire da punti diversi, si è valutata la convergenza di queste ultime e le nuove stime ottenute. Alla luce dei risultati ottenuti nei modelli implementati, si ritiene che il modello con 7 covariate senza intercetta ottenuto tramite backward selection di un set di variabili più ampio, possa dare delle informazioni interessanti sulla criticità di alcune variabili nel rischio di infortunio degli atleti. Monitorando maggiormente queste rilevazioni, si potrebbe considerare di preparare allenamenti ad-hoc in alcuni momenti della stagione sportiva per scongiurare eventuali stop.
2021
Risk factor analysis for injury prevention in football players
Infortuni
Prevenzione
Calcio
Analisi
Statistica
File in questo prodotto:
File Dimensione Formato  
Costaperaria_Vittorio.pdf

accesso aperto

Dimensione 1.19 MB
Formato Adobe PDF
1.19 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/11370