Logistic regression is a simple and efficient method for binary classification problems, and it is widely used in Statistics. Starting with a simple logistic regression with only two covariates it is well known that, even under the assumption that the covariates are marginally uncorrelated, the conditional parameter of the logistic model differs from the marginal one. Given a data-generating process, one may wish to evaluate the quantity of the total effect due to intermediate variables or the distortion on some coefficients due to the omission of relevant covariates. For linear regression models, the relationship between marginal and conditional effects has been given by Cochran (1938). In this work, we try to derive the exact relationship between marginal and conditional coefficients in a logistic regression model using a given data generating process with continuous covariates. Starting from a three-dimensional Gaussian distribution where one of the variables represents a latent continuous version of the outcome, it is possible to define the response simply by determining when this variable exceeds a given threshold. In this way, we can obtain the distributions of the covariates with respect to the binary outcome value. In particular, we show that both distributions are Extended Skew Normal with constrained parameters (Azzalini, 1985). This study fills the theoretical void on linear logistic models: specifically we found the functional form of the relationship between marginal and conditional coefficient for the logistic model when latent response and covariates are multivariate Gaussian and we show that this is not linear both in the full and in the reduced model.
La regressione logistica è un metodo semplice ed efficiente per problemi di classificazione binaria, ed è ampiamente utilizzata in Statistica. Partendo con semplice modello di regressione logistica con solamente due covariate è noto che, anche sotto l’assunzione di assenza di correlazione tra le covariate, il parametro condizionato del modello logistico differisce da quello marginale. Dato un processo generatore dei dati fissato, risulta di interesse valutare l’effetto totale dovuto a variabili intermedie o la distorsione di alcuni coefficienti dovuta all’omissione di variabili rilevanti. Per il modello di regressione lineare, la relazione tra effetti condizionati e marginali è stata data da Cochran (1938). In questo lavoro, si cerca di derivare la relazione esatta tra coefficienti marginali e condizionati in un modello di regressione logistica utilizzando un processo generatore noto con covariate continue. Partendo da una distribuzione Gaussiana tridimensionale dove una delle variabili rappresenta una versione latente della risposta, risulta possibile definire il valore binario della risposta semplicemente determinando quando questa variabile supera una determinata soglia. In questo modo, risulta possibile ottenere la distribuzione delle covariate condizionatamente al valore della variabile risposta. In particolare, si mostra che ambedue le distribuzioni risultano normali asimmetriche estese con parametri vincolati (Azzalini, 1985). Questo studio cerca di colmare il vuoto teorico sui modelli di regressione logistica: nello specifico si deriva la forma funzionale della relazione tra i coefficienti marginali e condizionati di un modello di regressione logistica nel caso in cui la versione latente della risposta e le covariate presentano una distribuzione normale multivariata. Inoltre, si mostra che il logit non risulta lineare nel modello completo e nel modello ridotto.
Relazioni tra i parametri marginali e condizionati nei modelli di regressione logistica: una specificazione generale che coinvolge la distribuzione normale asimmetrica estesa
GASPARIN, MATTEO
2021/2022
Abstract
Logistic regression is a simple and efficient method for binary classification problems, and it is widely used in Statistics. Starting with a simple logistic regression with only two covariates it is well known that, even under the assumption that the covariates are marginally uncorrelated, the conditional parameter of the logistic model differs from the marginal one. Given a data-generating process, one may wish to evaluate the quantity of the total effect due to intermediate variables or the distortion on some coefficients due to the omission of relevant covariates. For linear regression models, the relationship between marginal and conditional effects has been given by Cochran (1938). In this work, we try to derive the exact relationship between marginal and conditional coefficients in a logistic regression model using a given data generating process with continuous covariates. Starting from a three-dimensional Gaussian distribution where one of the variables represents a latent continuous version of the outcome, it is possible to define the response simply by determining when this variable exceeds a given threshold. In this way, we can obtain the distributions of the covariates with respect to the binary outcome value. In particular, we show that both distributions are Extended Skew Normal with constrained parameters (Azzalini, 1985). This study fills the theoretical void on linear logistic models: specifically we found the functional form of the relationship between marginal and conditional coefficient for the logistic model when latent response and covariates are multivariate Gaussian and we show that this is not linear both in the full and in the reduced model.File | Dimensione | Formato | |
---|---|---|---|
Gasparin_Matteo.pdf
accesso aperto
Dimensione
561.44 kB
Formato
Adobe PDF
|
561.44 kB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/35369