In modern functional regression problems, it is often necessary to manage varying levels of complexity and regularization across different regions of the function domain. Multi-resolution approaches provide a natural framework to address this challenge, allowing for local adaptations while preserving global structure. Bayesian nonparametric (BNP) modeling represents a powerful and flexible tool for tackling such problems. In this thesis, we develop a Bayesian multi-resolution functional regression model capable of approximating complex phenomena and improving the identification of regions with different levels of complexity. The main challenge in functional regression lies in the regularization of the infinite-dimensional function space. A common approach to address this difficulty is to reduce the problem to a parametric setting, in which the function of interest is represented by a finite number of parameters. A widely used technique, known as basis expansion, represents the target function as a linear combination of simpler, predefined components known as basis functions. The basis function model can be combined with a Spike-and-Slab prior distribution, allowing the model to select, a posteriori, the necessary components of the expansion. In particular, our method is based on an infinite sum of basis expansions with increasing complexity, effectively regularized by a specific sequence of Spike-and-Slab priors. A key feature of our approach is that the shrinkage probability (i.e., the probability of coefficients shrinking to zero) varies for each basis function, increasing with the complexity of the basis expansions. As a result, we constrain the model to produce more parsimonious solutions. To this end, the incremental shrinkage probabilities of the expansions are based on the CUmulative Shrinkage Process (CUSP), introduced in Legramanti et al. (2020). CUSP is based on the stick-breaking construction of a Dirichlet Process (DP), which assigns a discrete random probability distribution to an infinite set of random atoms. In the case of CUSP, the atoms are fixed and associated with each “layer” of the model, where the mass assigned to the Spike at zero in a given layer is the cumulative sum of the probabilities from previous layers. We then propose a modification of the stick-breaking process, similar to that presented in Bi & Ji (2023), called the self-stopping Cumulative Shrinkage Process (self-CUSP). This modification allows the spike mass to reach exactly 1 at a certain layer. From that point on, all subsequent layers are assigned an inclusion probability of 0. In this project, we focus on the scalar case with a normal distribution, considering real-valued covariates in one or more dimensions, as in spatio-temporal contexts. A Gibbs sampler is derived for the model, and posterior results are validated through simulation studies and real data applications. As expected, the posterior distribution of the function is able to effectively identify regions with varying complexity, successfully selecting both the coefficients and the necessary number of basis expansions. In some applications, such as signal decomposition, the posterior distributions of the individual basis expansions themselves may also be of interest. Moreover, we believe that the proposed modification to the stick-breaking process may have broader applications, such as in the automatic selection of the number of components in mixture models, if properly adapted.

Nei moderni problemi di regressione funzionale è spesso richiesta la gestione di livelli variabili di complessità e regolarizzazione in diverse regioni del dominio delle funzioni. Gli approcci multi-risoluzione offrono un supporto naturale per affrontare questa sfida, consentendo adattamenti locali pur mantenendo la struttura globale. La modellazione bayesiana non parametrica (BNP), rappresenta uno strumento potente e flessibile per affrontare tali problemi. In questa tesi, sviluppiamo un modello di regressione funzionale bayesiano multi-risoluzione, capace di approssimare fenomeni complessi e migliorare l’identificazione di regioni con diversi gradi di complessità. La principale difficoltà nella regressione funzionale risiede nella regolarizzazione dello spazio funzionale infinito-dimensionale. Per affrontare questa difficoltà, un approccio comune è quello di ricondurre il problema a un'impostazione parametrica, in cui la funzione di interesse è rappresentata da un numero finito di parametri. Una tecnica ampiamente utilizzata, detta espansione in basi, rappresenta la funzione target come combinazione lineare di componenti più semplici e predefinite, note come funzioni di base. Il modello basato su funzioni di base possa essere combinato con una distribuzione a priori Spike-and-Slab, permettendo al modello di selezionare, a posteriori, le componenti dell’espansione necessarie. In particolare, il nostro metodo si basa su una somma infinita di espansioni di base con complessità crescente, regolarizzate efficacemente da una particolare sequenza di distribuzioni Spike-and-Slab. Una caratteristica chiave del nostro approccio è che la probabilità di contrazione a zero (shrinkage) dei coefficienti varia per ogni base, aumentando con la complessità delle espansioni di base. Di conseguenza, costringiamo il modello a produrre soluzioni più parsimoniose. A tal fine, a priori, le probabilità di shrinkage incrementali delle espansioni si basano sul CUmulative Shrinkage Process (CUSP), introdotto in Legramanti et al. (2020). Il CUSP si basa sulla costruzione stick-breaking di un processo di Dirichlet (DP), che assegna una distribuzione di probabilità discreta e casuale a un insieme infinito di atomi casuali. Nel caso del CUSP, gli atomi sono fissi e associati a ciascun “livello” del modello, dove la massa assegnata allo Spike in zero in un certo livello è la somma cumulata delle probabilità dei livelli precedenti. Viene proposta poi una modifica del processo stick-breaking, simile a quella presentata in Bi & Ji (2023), chiamata self-stopping Cumulative Shrinkage Process (self-CUSP). Modificando lo stick-breaking permettendo alla massa dello Spike di raggiungere esattamente 1 a un certo livello. Da quel punto in poi, tutti i livelli successivi avranno probabilità di inclusione assegnata pari a 0. In questo progetto, ci concentriamo sul caso scalare con distribuzione normale, considerando covariate reali in una o più dimensioni, come ad esempio nei contesti spazio-temporali. Viene derivato un Gibbs Sampler per il modello e i risultati a posteriori vengono validati tramite studi di simulazione e applicazioni su dati reali. Come preventivato, la distribuzione a posteriori della funzione è in grado di identificare efficacemente le regioni con diversa complessità, selezionando con successo i coefficienti e il numero di espansioni di base necessari. In alcune applicazioni, come la decomposizione di segnali, anche le distribuzioni posteriori delle singole espansioni di base possono risultare di interesse. Inoltre, riteniamo che la modifica proposta al processo stick-breaking possa trovare applicazioni più ampie, adattandola opportunatamente ad altri scenari, come la selezione automatica del numero di componenti nei modelli mistura.

Cumulative Shrinkage Processes for Bayesian Multiresolution Functional Regression

ONGARATO, ANDREA
2024/2025

Abstract

In modern functional regression problems, it is often necessary to manage varying levels of complexity and regularization across different regions of the function domain. Multi-resolution approaches provide a natural framework to address this challenge, allowing for local adaptations while preserving global structure. Bayesian nonparametric (BNP) modeling represents a powerful and flexible tool for tackling such problems. In this thesis, we develop a Bayesian multi-resolution functional regression model capable of approximating complex phenomena and improving the identification of regions with different levels of complexity. The main challenge in functional regression lies in the regularization of the infinite-dimensional function space. A common approach to address this difficulty is to reduce the problem to a parametric setting, in which the function of interest is represented by a finite number of parameters. A widely used technique, known as basis expansion, represents the target function as a linear combination of simpler, predefined components known as basis functions. The basis function model can be combined with a Spike-and-Slab prior distribution, allowing the model to select, a posteriori, the necessary components of the expansion. In particular, our method is based on an infinite sum of basis expansions with increasing complexity, effectively regularized by a specific sequence of Spike-and-Slab priors. A key feature of our approach is that the shrinkage probability (i.e., the probability of coefficients shrinking to zero) varies for each basis function, increasing with the complexity of the basis expansions. As a result, we constrain the model to produce more parsimonious solutions. To this end, the incremental shrinkage probabilities of the expansions are based on the CUmulative Shrinkage Process (CUSP), introduced in Legramanti et al. (2020). CUSP is based on the stick-breaking construction of a Dirichlet Process (DP), which assigns a discrete random probability distribution to an infinite set of random atoms. In the case of CUSP, the atoms are fixed and associated with each “layer” of the model, where the mass assigned to the Spike at zero in a given layer is the cumulative sum of the probabilities from previous layers. We then propose a modification of the stick-breaking process, similar to that presented in Bi & Ji (2023), called the self-stopping Cumulative Shrinkage Process (self-CUSP). This modification allows the spike mass to reach exactly 1 at a certain layer. From that point on, all subsequent layers are assigned an inclusion probability of 0. In this project, we focus on the scalar case with a normal distribution, considering real-valued covariates in one or more dimensions, as in spatio-temporal contexts. A Gibbs sampler is derived for the model, and posterior results are validated through simulation studies and real data applications. As expected, the posterior distribution of the function is able to effectively identify regions with varying complexity, successfully selecting both the coefficients and the necessary number of basis expansions. In some applications, such as signal decomposition, the posterior distributions of the individual basis expansions themselves may also be of interest. Moreover, we believe that the proposed modification to the stick-breaking process may have broader applications, such as in the automatic selection of the number of components in mixture models, if properly adapted.
2024
Cumulative Shrinkage Processes for Bayesian Multiresolution Functional Regression
Nei moderni problemi di regressione funzionale è spesso richiesta la gestione di livelli variabili di complessità e regolarizzazione in diverse regioni del dominio delle funzioni. Gli approcci multi-risoluzione offrono un supporto naturale per affrontare questa sfida, consentendo adattamenti locali pur mantenendo la struttura globale. La modellazione bayesiana non parametrica (BNP), rappresenta uno strumento potente e flessibile per affrontare tali problemi. In questa tesi, sviluppiamo un modello di regressione funzionale bayesiano multi-risoluzione, capace di approssimare fenomeni complessi e migliorare l’identificazione di regioni con diversi gradi di complessità. La principale difficoltà nella regressione funzionale risiede nella regolarizzazione dello spazio funzionale infinito-dimensionale. Per affrontare questa difficoltà, un approccio comune è quello di ricondurre il problema a un'impostazione parametrica, in cui la funzione di interesse è rappresentata da un numero finito di parametri. Una tecnica ampiamente utilizzata, detta espansione in basi, rappresenta la funzione target come combinazione lineare di componenti più semplici e predefinite, note come funzioni di base. Il modello basato su funzioni di base possa essere combinato con una distribuzione a priori Spike-and-Slab, permettendo al modello di selezionare, a posteriori, le componenti dell’espansione necessarie. In particolare, il nostro metodo si basa su una somma infinita di espansioni di base con complessità crescente, regolarizzate efficacemente da una particolare sequenza di distribuzioni Spike-and-Slab. Una caratteristica chiave del nostro approccio è che la probabilità di contrazione a zero (shrinkage) dei coefficienti varia per ogni base, aumentando con la complessità delle espansioni di base. Di conseguenza, costringiamo il modello a produrre soluzioni più parsimoniose. A tal fine, a priori, le probabilità di shrinkage incrementali delle espansioni si basano sul CUmulative Shrinkage Process (CUSP), introdotto in Legramanti et al. (2020). Il CUSP si basa sulla costruzione stick-breaking di un processo di Dirichlet (DP), che assegna una distribuzione di probabilità discreta e casuale a un insieme infinito di atomi casuali. Nel caso del CUSP, gli atomi sono fissi e associati a ciascun “livello” del modello, dove la massa assegnata allo Spike in zero in un certo livello è la somma cumulata delle probabilità dei livelli precedenti. Viene proposta poi una modifica del processo stick-breaking, simile a quella presentata in Bi & Ji (2023), chiamata self-stopping Cumulative Shrinkage Process (self-CUSP). Modificando lo stick-breaking permettendo alla massa dello Spike di raggiungere esattamente 1 a un certo livello. Da quel punto in poi, tutti i livelli successivi avranno probabilità di inclusione assegnata pari a 0. In questo progetto, ci concentriamo sul caso scalare con distribuzione normale, considerando covariate reali in una o più dimensioni, come ad esempio nei contesti spazio-temporali. Viene derivato un Gibbs Sampler per il modello e i risultati a posteriori vengono validati tramite studi di simulazione e applicazioni su dati reali. Come preventivato, la distribuzione a posteriori della funzione è in grado di identificare efficacemente le regioni con diversa complessità, selezionando con successo i coefficienti e il numero di espansioni di base necessari. In alcune applicazioni, come la decomposizione di segnali, anche le distribuzioni posteriori delle singole espansioni di base possono risultare di interesse. Inoltre, riteniamo che la modifica proposta al processo stick-breaking possa trovare applicazioni più ampie, adattandola opportunatamente ad altri scenari, come la selezione automatica del numero di componenti nei modelli mistura.
Statistica Bayesiana
Dati Funzionali
Shrinkage Cumulato
Multirisoluzione
Processi Stocastici
File in questo prodotto:
File Dimensione Formato  
Ongarato_Andrea.pdf

Accesso riservato

Dimensione 8.89 MB
Formato Adobe PDF
8.89 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/93037