Type 2 diabetes represents one of the major global health challenges, due both to its increasing prevalence and to the severe microvascular and macrovascular complications associated with it. In this context, it is essential to understand not only whether, but also when specific adverse events occur in individuals, in order to assess treatment effectiveness and the role of clinical and demographic covariates. Survival analysis provides the standard statistical framework for the study of time-to-event data, and among the most widely used models is the Cox proportional hazards model, traditionally based on covariates measured at baseline and assumed constant over time. The aim of this thesis is to analyze and compare the standard Cox model with its time-varying extensions, in order to evaluate the additional information provided by the inclusion of longitudinal data. In particular, two main formulations are considered: the model with time-varying covariates, which allows subject characteristics to be updated over time through repeated measurements, and the model with time-varying coefficients, which relaxes the proportional hazards assumption by modeling the temporal evolution of covariate effects. The study focuses on the practical implementation of these models using the R programming language. The analysis is conducted on two distinct datasets: one derived from the randomized clinical trial LEADER, comparing liraglutide with placebo in patients with type 2 diabetes, and one consisting of real-world observational data obtained from clinical records and periodic visits. The results highlight that the effectiveness of time-varying models strongly depends on the nature of the data. In the randomized trial, characterized by high data quality and balanced covariates, the model with time-varying covariates yields results largely consistent with the standard model, supporting the validity of the randomization. Conversely, in the analysis of observational data, the introduction of time variation captures dynamic risk patterns that are not detectable using baseline information alone, particularly with regard to the long-term effects of pharmacological treatments. These findings are of particular clinical relevance, as they provide more detailed insights into treatment effectiveness and safety. Although the model with time-varying coefficients does not show substantial differences compared with the standard model in terms of results, it proves to be a valuable tool for handling violations of the proportional hazards assumption, allowing for a more flexible representation of covariate effects over time. Overall, the study demonstrates that the integration of longitudinal information represents a significant added value in survival analysis, improving both the interpretability and the clinical relevance of the results. However, some limitations emerge, related to data quality and sampling frequency, as well as to the definition of time intervals in the start–stop format, which require careful dataset construction. Future developments may include extending the models to account for nonlinear relationships, comparing them with alternative approaches, and applying them to a larger number of datasets. In conclusion, the Cox model with time-varying covariates emerges as the most informative among those analyzed, especially in the presence of real-world data, as it provides a more realistic representation of risk evolution over time and contributes meaningfully to clinical decision-making.

Il diabete di tipo 2 rappresenta una delle principali sfide sanitarie a livello globale, sia per la sua crescente diffusione sia per le gravi complicanze micro e macrovascolari ad esso associate. In tale contesto risulta fondamentale comprendere non solo se, ma anche quando determinati eventi avversi si manifestano nei soggetti, al fine di valutare l’efficacia delle terapie e il ruolo delle covariate clinico-demografiche. L’analisi di sopravvivenza costituisce lo strumento statistico di riferimento per lo studio dei dati “time-to-event” e tra i modelli più utilizzati si colloca il modello di Cox a rischi proporzionali, basato tradizionalmente su covariate costanti misurate alla baseline. L’obiettivo di questa tesi è analizzare e confrontare il modello di Cox standard con le sue estensioni tempo-varianti, al fine di valutare il contributo informativo derivante dall’inclusione di dati longitudinali. In particolare, sono state considerate due principali formulazioni: il modello con covariate tempo-varianti, che consente di aggiornare nel tempo le caratteristiche del soggetto attraverso osservazioni ripetute, e il modello con coefficienti tempo-varianti, che permette di rilassare l’ipotesi di proporzionalità dei rischi modellando l’evoluzione temporale degli effetti delle covariate. Lo studio si è concentrato sull’implementazione pratica dei modelli mediante il linguaggio R. L’analisi è stata condotta su due dataset distinti: uno proveniente dallo studio clinico randomizzato LEADER, relativo al confronto tra liraglutide e placebo in pazienti con diabete di tipo 2, e uno costituito da dati osservazionali real-world, derivanti da cartelle cliniche e visite periodiche. I risultati evidenziano come l’efficacia dei modelli tempo-varianti dipenda fortemente dalla natura dei dati analizzati. Nel caso dello studio randomizzato, caratterizzato da un’elevata qualità dei dati e bilanciamento delle covariate, il modello con covariate tempo-varianti restituisce risultati sostanzialmente coerenti con il modello standard, confermando la bontà della randomizzazione dei soggetti. Al contrario, nell’analisi dei dati osservazionali, l’introduzione della tempo-varianza consente di cogliere dinamiche evolutive del rischio non rilevabili con la sola baseline, in particolare per quanto riguarda l’effetto dei trattamenti farmacologici nel lungo periodo. Tali risultati sono di particolare interesse in ambito clinico, poiché forniscono indicazioni più dettagliate sull’efficacia e sulla sicurezza delle terapie. Il modello con coefficienti tempo-varianti, pur non mostrando differenze sostanziali rispetto al modello standard in termini di risultati, si conferma uno strumento utile per gestire violazioni dell’ipotesi di proporzionalità, consentendo una modellazione più flessibile dell’effetto delle covariate nel tempo. Nel complesso, lo studio dimostra come l’integrazione di informazioni longitudinali rappresenti un valore aggiunto nell’analisi di sopravvivenza, in grado di migliorare l’interpretabilità e la rilevanza clinica dei risultati. Tuttavia, emergono alcune limitazioni legate alla qualità e alla frequenza dei dati raccolti, nonché alla definizione degli intervalli temporali nel formato start-stop, che richiedono un’attenta costruzione del dataset. Ulteriori sviluppi potrebbero includere l’estensione dei modelli a relazioni non lineari e il confronto con approcci alternativi, oltre all’applicazione su un numero maggiore di dataset. In conclusione, il modello di Cox con covariate tempo-varianti si configura come lo strumento più informativo tra quelli analizzati, soprattutto in presenza di dati real-world, permettendo una rappresentazione più realistica dell’evoluzione del rischio nel tempo e contribuendo in modo significativo al supporto delle decisioni cliniche.

Il modello di Cox a covariate e coefficienti tempo-varianti: benchmark e applicazioni

MARCHESONI, PIETRO
2025/2026

Abstract

Type 2 diabetes represents one of the major global health challenges, due both to its increasing prevalence and to the severe microvascular and macrovascular complications associated with it. In this context, it is essential to understand not only whether, but also when specific adverse events occur in individuals, in order to assess treatment effectiveness and the role of clinical and demographic covariates. Survival analysis provides the standard statistical framework for the study of time-to-event data, and among the most widely used models is the Cox proportional hazards model, traditionally based on covariates measured at baseline and assumed constant over time. The aim of this thesis is to analyze and compare the standard Cox model with its time-varying extensions, in order to evaluate the additional information provided by the inclusion of longitudinal data. In particular, two main formulations are considered: the model with time-varying covariates, which allows subject characteristics to be updated over time through repeated measurements, and the model with time-varying coefficients, which relaxes the proportional hazards assumption by modeling the temporal evolution of covariate effects. The study focuses on the practical implementation of these models using the R programming language. The analysis is conducted on two distinct datasets: one derived from the randomized clinical trial LEADER, comparing liraglutide with placebo in patients with type 2 diabetes, and one consisting of real-world observational data obtained from clinical records and periodic visits. The results highlight that the effectiveness of time-varying models strongly depends on the nature of the data. In the randomized trial, characterized by high data quality and balanced covariates, the model with time-varying covariates yields results largely consistent with the standard model, supporting the validity of the randomization. Conversely, in the analysis of observational data, the introduction of time variation captures dynamic risk patterns that are not detectable using baseline information alone, particularly with regard to the long-term effects of pharmacological treatments. These findings are of particular clinical relevance, as they provide more detailed insights into treatment effectiveness and safety. Although the model with time-varying coefficients does not show substantial differences compared with the standard model in terms of results, it proves to be a valuable tool for handling violations of the proportional hazards assumption, allowing for a more flexible representation of covariate effects over time. Overall, the study demonstrates that the integration of longitudinal information represents a significant added value in survival analysis, improving both the interpretability and the clinical relevance of the results. However, some limitations emerge, related to data quality and sampling frequency, as well as to the definition of time intervals in the start–stop format, which require careful dataset construction. Future developments may include extending the models to account for nonlinear relationships, comparing them with alternative approaches, and applying them to a larger number of datasets. In conclusion, the Cox model with time-varying covariates emerges as the most informative among those analyzed, especially in the presence of real-world data, as it provides a more realistic representation of risk evolution over time and contributes meaningfully to clinical decision-making.
2025
The Cox model with time varying covariates and time varying coefficients: benchmarks and applications
Il diabete di tipo 2 rappresenta una delle principali sfide sanitarie a livello globale, sia per la sua crescente diffusione sia per le gravi complicanze micro e macrovascolari ad esso associate. In tale contesto risulta fondamentale comprendere non solo se, ma anche quando determinati eventi avversi si manifestano nei soggetti, al fine di valutare l’efficacia delle terapie e il ruolo delle covariate clinico-demografiche. L’analisi di sopravvivenza costituisce lo strumento statistico di riferimento per lo studio dei dati “time-to-event” e tra i modelli più utilizzati si colloca il modello di Cox a rischi proporzionali, basato tradizionalmente su covariate costanti misurate alla baseline. L’obiettivo di questa tesi è analizzare e confrontare il modello di Cox standard con le sue estensioni tempo-varianti, al fine di valutare il contributo informativo derivante dall’inclusione di dati longitudinali. In particolare, sono state considerate due principali formulazioni: il modello con covariate tempo-varianti, che consente di aggiornare nel tempo le caratteristiche del soggetto attraverso osservazioni ripetute, e il modello con coefficienti tempo-varianti, che permette di rilassare l’ipotesi di proporzionalità dei rischi modellando l’evoluzione temporale degli effetti delle covariate. Lo studio si è concentrato sull’implementazione pratica dei modelli mediante il linguaggio R. L’analisi è stata condotta su due dataset distinti: uno proveniente dallo studio clinico randomizzato LEADER, relativo al confronto tra liraglutide e placebo in pazienti con diabete di tipo 2, e uno costituito da dati osservazionali real-world, derivanti da cartelle cliniche e visite periodiche. I risultati evidenziano come l’efficacia dei modelli tempo-varianti dipenda fortemente dalla natura dei dati analizzati. Nel caso dello studio randomizzato, caratterizzato da un’elevata qualità dei dati e bilanciamento delle covariate, il modello con covariate tempo-varianti restituisce risultati sostanzialmente coerenti con il modello standard, confermando la bontà della randomizzazione dei soggetti. Al contrario, nell’analisi dei dati osservazionali, l’introduzione della tempo-varianza consente di cogliere dinamiche evolutive del rischio non rilevabili con la sola baseline, in particolare per quanto riguarda l’effetto dei trattamenti farmacologici nel lungo periodo. Tali risultati sono di particolare interesse in ambito clinico, poiché forniscono indicazioni più dettagliate sull’efficacia e sulla sicurezza delle terapie. Il modello con coefficienti tempo-varianti, pur non mostrando differenze sostanziali rispetto al modello standard in termini di risultati, si conferma uno strumento utile per gestire violazioni dell’ipotesi di proporzionalità, consentendo una modellazione più flessibile dell’effetto delle covariate nel tempo. Nel complesso, lo studio dimostra come l’integrazione di informazioni longitudinali rappresenti un valore aggiunto nell’analisi di sopravvivenza, in grado di migliorare l’interpretabilità e la rilevanza clinica dei risultati. Tuttavia, emergono alcune limitazioni legate alla qualità e alla frequenza dei dati raccolti, nonché alla definizione degli intervalli temporali nel formato start-stop, che richiedono un’attenta costruzione del dataset. Ulteriori sviluppi potrebbero includere l’estensione dei modelli a relazioni non lineari e il confronto con approcci alternativi, oltre all’applicazione su un numero maggiore di dataset. In conclusione, il modello di Cox con covariate tempo-varianti si configura come lo strumento più informativo tra quelli analizzati, soprattutto in presenza di dati real-world, permettendo una rappresentazione più realistica dell’evoluzione del rischio nel tempo e contribuendo in modo significativo al supporto delle decisioni cliniche.
Cox model
Survival analysis
time varying
File in questo prodotto:
File Dimensione Formato  
Marchesoni_Pietro.pdf

accesso aperto

Dimensione 2.79 MB
Formato Adobe PDF
2.79 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/106857