Dynamic Bayesian networks are probabilistic graphical models that describe the conditional dependencies between the variables of a dataset over time. They are particularly suited for modelling the evolution of complex systems, such as the evolution of patient trajectories or a disease. This thesis uses real-world clinical data collected during the LEADER trial, a long-term multicentre, international, double-blind, placebo-controlled trial conducted to evaluate the effect of liraglutide treatment, a GLP-1 analogue, in patients with type 2 diabetes (T2D) with a high risk of cardiovascular events. This thesis aims to develop a simulation framework based on a DBN model that can generate a synthetic dataset representing the evolution of patients’ trajectories over time. The LEADER data were preprocessed to extract relevant information, handle missing values, select variables, discretise continuous variables, and organise the dataset in an appropriate structure for learning a DBN. During the learning of the DBN an initial structure was modelled using a 5-fold cross-validation, which was filtered to maintain only the relevant dependencies. Subsequently, this network was used as the initial structure of the learning of the DBN model. After learning the DBN, the model was used to simulate the evolution of the patients’ trajectories contained in the preprocessed dataset. The simulation iteratively infers the variables’ values based on model structure and conditional probability tables, starting from an initial state at time 0. To improve the reliability of the simulation, each patient’s evolution was repeated 50 times, generating multiple simulations of the dataset. Using this approach, we provided a probabilistic evolution of the patient’s trajectory, ensuring robustness in the simulation. The results show that the synthetic dataset proves to be effective in reproducing the original dataset, preserving its statistical properties and its dynamics. Although some discrepancies were observed, especially in the representation of clinical events such as cardiovascular and renal outcomes, overall alignment with the real dataset proves the validity of the built DBN as a simulation tool. These results underscore the potential use of DBN for data generation and simulation in clinical and research settings.

Le reti bayesiane dinamiche (dynamic Bayesian networks, DBNs) sono modelli grafico-probabilistici che descrivono le dipendenze condizionate tra le variabili di un sistema nel tempo. Sono particolarmente adatte per modellare l’evoluzione di sistemi complessi, come l’andamento dell’evoluzione dei pazienti o la progressione di una malattia. Questa tesi utilizza dati clinici reali raccolti durante lo studio LEADER, un trial clinico multinazionale, multicentrico, a lungo termine, in doppio cieco e controllato con placebo, condotto con lo scopo di valutare l’effetto del trattamento con il liraglutide, un farmaco agonista del recettore GLP-1, in pazienti affetti da diabete di tipo 2 (DM2) ad elevato rischio cardiovascolare. Questa tesi ha l’obiettivo di sviluppare una simulazione basata su un modello DBN, in grado di generare un dataset sintetico, rappresentativo dell’evoluzione delle traiettorie dei pazienti nel tempo. I dati LEADER sono stati preprocessati per estrarre informazioni rilevanti, gestire valori mancanti, selezionare le variabili, discretizzare quelle continue e strutturare il dataset in una struttura adatta all’apprendimento del modello DBN. Durante la fase di apprendimento, è stata costruita una struttura iniziale usando una validazione incrociata a 5 fold, che è stata poi filtrata per mantenere solo le dipendenze rilevanti. Successivamente, questa rete è stata usata come struttura iniziale per l’apprendimento del modello DBN. Dopo l’apprendimento della DBN, il modello è stato impiegato per simulare l’evoluzione delle traiettorie dei pazienti contenuti nel dataset preprocessato. La simulazione inferisce iterativamente i valori delle variabili sulla base della struttura del modello e delle tabelle di probabilità condizionata, a partire da uno stato iniziale al tempo 0. Per migliorare l’affidabilità della simulazione, l’evoluzione di ogni paziente è stata ripetuta 50 volte, generando simulazioni multiple del dataset. Questo approccio ha permesso di fornire un’evoluzione probabilitstica delle traiettorie dei pazienti, garantendo robustezza nel processo di simulazione. I risultati mostrano che il dataset sintetico è efficace nel riprodurre quello originali, preservandone le proprietà statistiche e le dinamiche. Sebbene siano state osservate alcune discrepanze, in particolare nella rappresentazione degli eventi clinici come quelli cardiovascolari e renali, l’allineamento complessivo con i dati reali conferma la validità del modello DBN come strumento di simulazione. Questi risultati evidenziano il potenziale utilizzo delle DBN per la generazione e simulazione di dati in ambito clinico e di ricerca.

Simulating the Long-Term Outcomes of Diabetes: Dynamic Bayesian Networks Applied to the LEADER Clinical Trial

GONZATO, NOEMI
2024/2025

Abstract

Dynamic Bayesian networks are probabilistic graphical models that describe the conditional dependencies between the variables of a dataset over time. They are particularly suited for modelling the evolution of complex systems, such as the evolution of patient trajectories or a disease. This thesis uses real-world clinical data collected during the LEADER trial, a long-term multicentre, international, double-blind, placebo-controlled trial conducted to evaluate the effect of liraglutide treatment, a GLP-1 analogue, in patients with type 2 diabetes (T2D) with a high risk of cardiovascular events. This thesis aims to develop a simulation framework based on a DBN model that can generate a synthetic dataset representing the evolution of patients’ trajectories over time. The LEADER data were preprocessed to extract relevant information, handle missing values, select variables, discretise continuous variables, and organise the dataset in an appropriate structure for learning a DBN. During the learning of the DBN an initial structure was modelled using a 5-fold cross-validation, which was filtered to maintain only the relevant dependencies. Subsequently, this network was used as the initial structure of the learning of the DBN model. After learning the DBN, the model was used to simulate the evolution of the patients’ trajectories contained in the preprocessed dataset. The simulation iteratively infers the variables’ values based on model structure and conditional probability tables, starting from an initial state at time 0. To improve the reliability of the simulation, each patient’s evolution was repeated 50 times, generating multiple simulations of the dataset. Using this approach, we provided a probabilistic evolution of the patient’s trajectory, ensuring robustness in the simulation. The results show that the synthetic dataset proves to be effective in reproducing the original dataset, preserving its statistical properties and its dynamics. Although some discrepancies were observed, especially in the representation of clinical events such as cardiovascular and renal outcomes, overall alignment with the real dataset proves the validity of the built DBN as a simulation tool. These results underscore the potential use of DBN for data generation and simulation in clinical and research settings.
2024
Simulating the Long-Term Outcomes of Diabetes: Dynamic Bayesian Networks Applied to the LEADER Clinical Trial
Le reti bayesiane dinamiche (dynamic Bayesian networks, DBNs) sono modelli grafico-probabilistici che descrivono le dipendenze condizionate tra le variabili di un sistema nel tempo. Sono particolarmente adatte per modellare l’evoluzione di sistemi complessi, come l’andamento dell’evoluzione dei pazienti o la progressione di una malattia. Questa tesi utilizza dati clinici reali raccolti durante lo studio LEADER, un trial clinico multinazionale, multicentrico, a lungo termine, in doppio cieco e controllato con placebo, condotto con lo scopo di valutare l’effetto del trattamento con il liraglutide, un farmaco agonista del recettore GLP-1, in pazienti affetti da diabete di tipo 2 (DM2) ad elevato rischio cardiovascolare. Questa tesi ha l’obiettivo di sviluppare una simulazione basata su un modello DBN, in grado di generare un dataset sintetico, rappresentativo dell’evoluzione delle traiettorie dei pazienti nel tempo. I dati LEADER sono stati preprocessati per estrarre informazioni rilevanti, gestire valori mancanti, selezionare le variabili, discretizzare quelle continue e strutturare il dataset in una struttura adatta all’apprendimento del modello DBN. Durante la fase di apprendimento, è stata costruita una struttura iniziale usando una validazione incrociata a 5 fold, che è stata poi filtrata per mantenere solo le dipendenze rilevanti. Successivamente, questa rete è stata usata come struttura iniziale per l’apprendimento del modello DBN. Dopo l’apprendimento della DBN, il modello è stato impiegato per simulare l’evoluzione delle traiettorie dei pazienti contenuti nel dataset preprocessato. La simulazione inferisce iterativamente i valori delle variabili sulla base della struttura del modello e delle tabelle di probabilità condizionata, a partire da uno stato iniziale al tempo 0. Per migliorare l’affidabilità della simulazione, l’evoluzione di ogni paziente è stata ripetuta 50 volte, generando simulazioni multiple del dataset. Questo approccio ha permesso di fornire un’evoluzione probabilitstica delle traiettorie dei pazienti, garantendo robustezza nel processo di simulazione. I risultati mostrano che il dataset sintetico è efficace nel riprodurre quello originali, preservandone le proprietà statistiche e le dinamiche. Sebbene siano state osservate alcune discrepanze, in particolare nella rappresentazione degli eventi clinici come quelli cardiovascolari e renali, l’allineamento complessivo con i dati reali conferma la validità del modello DBN come strumento di simulazione. Questi risultati evidenziano il potenziale utilizzo delle DBN per la generazione e simulazione di dati in ambito clinico e di ricerca.
LEADER Trial
Long-Term Outcomes
DBN
Diabetes
Liraglutide
File in questo prodotto:
File Dimensione Formato  
Gonzato_Noemi.pdf

embargo fino al 14/04/2028

Dimensione 9.29 MB
Formato Adobe PDF
9.29 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/85246