Al giorno d'oggi è sempre più comune avere a disposizione grandi quantità di dati e questo ci porta ad affrontare nuove problematiche, principalmente relative alle limitate risorse computazionali. Ci sono due principali limitazioni per l'analisi dei big data: da un lato, la memoria di un singolo computer spesso non è in grado di memorizzare completamente dati di queste dimensioni; dall'altro, invece, la potenza di calcolo non è sufficiente per poter ottenere dei risultati in tempo utile. Di fronte a queste due sfide, l'approccio base si basa sull'idea "divide et impera", il quale consiste nel dividere i dati in sottoinsiemi nei quali ad esempio ottenere delle statistiche d'interesse da aggregare poi successivamente in una macchina per definire uno stimatore finale. Partendo da un contesto distribuito di questo tipo, è stato considerato un metodo iterativo basato sulla definizione di un surrogato della verosimiglianza. Quando il numero di unità contenute per macchina non è sufficiente, tale algoritmo presenta delle problematiche di convergenza che andranno indagate e per le quali si andrà a considerare la soluzione proposta dall'algoritmo CEASE (Communication-Efficient Accurate Statistical Estimation). Quest'ultimo, oltre a risolvere i problemi di convergenza, funziona anche a prescindere dal valore di inizializzazione. Un approccio differente rispetto a quello "divide et impera", riguarda l'utilizzo di un sottocampione opportunamente selezionato dei dati con il quale effettuare l'inferenza e ridurre l'onere computazionale. I metodi esistenti si focalizzano maggiormente nell'utilizzo di probabilità di campionamento non uniformi in modo da includere con una probabilità maggiore le osservazioni più informative. Nello specifico si considererà un algoritmo basato sul campionamento di Poisson, il quale rispetto al campionamento con reinserimento, risulta essere una scelta computazionalmente più efficiente. Questo lavoro di tesi si propone quindi di confrontare tra di loro queste metodologie, nel contesto dei modelli di regressione per dati binari, tenendo a mente che l'obiettivo è quello di raggiungere le stesse prestazioni dello stimatore che si otterrebbe avendo tutti i dati a disposizione su una singola macchina. Sarà d'interesse anche valutare l'effetto dell'inserimento della correzione di Firth nelle performance dei metodi in esame, sapendo che quest'ultima ha un ruolo chiave nel garantire l'esistenza di stime finite e nell'ottenere una minor distorsione.
Inferenza distribuita in modelli di regressione per dati binari
COMPAGNO, MATTIA
2021/2022
Abstract
Al giorno d'oggi è sempre più comune avere a disposizione grandi quantità di dati e questo ci porta ad affrontare nuove problematiche, principalmente relative alle limitate risorse computazionali. Ci sono due principali limitazioni per l'analisi dei big data: da un lato, la memoria di un singolo computer spesso non è in grado di memorizzare completamente dati di queste dimensioni; dall'altro, invece, la potenza di calcolo non è sufficiente per poter ottenere dei risultati in tempo utile. Di fronte a queste due sfide, l'approccio base si basa sull'idea "divide et impera", il quale consiste nel dividere i dati in sottoinsiemi nei quali ad esempio ottenere delle statistiche d'interesse da aggregare poi successivamente in una macchina per definire uno stimatore finale. Partendo da un contesto distribuito di questo tipo, è stato considerato un metodo iterativo basato sulla definizione di un surrogato della verosimiglianza. Quando il numero di unità contenute per macchina non è sufficiente, tale algoritmo presenta delle problematiche di convergenza che andranno indagate e per le quali si andrà a considerare la soluzione proposta dall'algoritmo CEASE (Communication-Efficient Accurate Statistical Estimation). Quest'ultimo, oltre a risolvere i problemi di convergenza, funziona anche a prescindere dal valore di inizializzazione. Un approccio differente rispetto a quello "divide et impera", riguarda l'utilizzo di un sottocampione opportunamente selezionato dei dati con il quale effettuare l'inferenza e ridurre l'onere computazionale. I metodi esistenti si focalizzano maggiormente nell'utilizzo di probabilità di campionamento non uniformi in modo da includere con una probabilità maggiore le osservazioni più informative. Nello specifico si considererà un algoritmo basato sul campionamento di Poisson, il quale rispetto al campionamento con reinserimento, risulta essere una scelta computazionalmente più efficiente. Questo lavoro di tesi si propone quindi di confrontare tra di loro queste metodologie, nel contesto dei modelli di regressione per dati binari, tenendo a mente che l'obiettivo è quello di raggiungere le stesse prestazioni dello stimatore che si otterrebbe avendo tutti i dati a disposizione su una singola macchina. Sarà d'interesse anche valutare l'effetto dell'inserimento della correzione di Firth nelle performance dei metodi in esame, sapendo che quest'ultima ha un ruolo chiave nel garantire l'esistenza di stime finite e nell'ottenere una minor distorsione.File | Dimensione | Formato | |
---|---|---|---|
Compagno_Mattia.pdf
accesso aperto
Dimensione
1.37 MB
Formato
Adobe PDF
|
1.37 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/35385