Approcci non supervisionati alla stratificazione di pazienti con diabete di tipo I usando solo dati di monitoraggio in continua della glicemia

Diabetes is, without any doubt, one of the most characteristic pathology of our time and its trend it’s far from being negative: according to the World Health Organization (WHO), global cases of diabetes in 1980 were 180 millions [1], against the 422 millions registered in 2014 and the 600 millions estimated for the 2035. Also, the pandemic situation that affects our society globally has additionally exacerbated the already complicated situation of people with diabetes: in fact, as reported in [4], diabetes it’s one of the risk factors of infection and severe disease progression of Covid-19. The severe and huge impact that diabetes has on patients it’s however known from several years. Diabetes is a "metabolic disease” and can be characterized as a lack of control of glucose levels in blood caused by a deficient or absent secretion of insulin by pancreas [5]. As a result of this disfunction, glucose levels of diabetic patients can be in ranges that are higher (hyperglicemic) or lower (hypoglycemic) than the basal and physiological one (euglycemic range); if this situation lasts, the risk of severe comorbidities dramatically grows. So, it’s fundamental to monitor patients glucose levels with sensors such as the CGM one (”Continuous Glucose Monitoring sensor”), that lead the patient to monitor its blood glucose levels almost continuosly and also glycemic variability. The increased availability of lot of data given by the use of this sensors, caused the idea to develop also for diabetes treatment ”precision medicine” approaches, that aims to develop patient-optimized and personalized therapies [7]. In particular, through the use of ”clustering” algorithms, it is possibile to find group of patients with similar characteristics: this lead clustering techniques to represent a promising medical instrument in the ”big data” era, in order to find more individualized therapy strategies. This is also what these study aims to do: apply clustering techniques to long CGM data series in order to find possible subgroups of similar patients or weekly glycemic patterns, and then investigate to possible clinical uses and applications: in order to do so, two ”state of the art” algorithm (k-means and hierarchical clustering) were used on a database made of CGM data coming from an open-source artificial pancreas system named OpenAPS. We obtained a total of 6 patients clusters and 8 weekly glycemic pattern clusters, subsequently analyzed in order to find new possible instruments to enhance patients therapy.This thesis is structured in 7 chapters. Chapter 1 introduces the pathology and its management, with classic and new techniques. In the chapter 2 the dataset is presented, along with first preprocessing operations. The description of fea- ture extraction phase is reported in chapter 3. Chapter 4 reports state of the art clustering methodologies. In chapter 5 one can find the results obtained with the application of clustering techniques on two types of datasets, the patients one and the weekly glycemic patterns set. In chapter 6 investigation on possible applications of clustering results are described, whereas, finally, chapter 7 outline possible future improvements and conclusions on the present work.

Il Diabete Mellito è una tra le patologie che più caratterizzano il nostro secolo,e l’andamento della sua incidenza presenta un trend allarmante:secondo la WHO, i casi di diabete diagnosticati a livello globale nel 1980 erano 180 milioni [1], contro i 422 milioni registrati nel 2014 ed i 600 milioni previsti entro il 2035.La situazione pandemica che ha colpito la nostra società, ha ulteriormente aggravato la situazione di soggetti con malattie croniche come il diabete:come riportato in [4], il diabete risulta essere tra i principali fattori di rischio sia per una possibile infezione da Sars-Cov-2,sia per una più grave progressione della malattia.La gravità e l’impatto rilevante che ha però questa patologia sui pazienti sono,in parte,già note da diversi anni.Il diabete fa parte delle cosiddette “malattie metaboliche” e si configura principalmente in un mancato controllo dei livelli di glicemia nel sangue a causa di una secrezione deficitaria (presente nel diabete di tipo II) o nulla (caratteristica invece del tipo I) di insulina da parte del pancreas [5].Questa disfunzione fa sì che la glicemia di soggetti diabetici possa ritrovarsi a livelli che non risultano essere fisiologici,in particolare più o meno elevati (rispettivamente range iperglicemico e ipoglicemico) rispetto al ”range euglicemico”;il prolungarsi di questa condizione può comportare gravi complicanze sistemiche.Risulta di fondamentale importanza quindi il monitoraggio dei livelli glicemici del paziente,che ad oggi può avvenire attraverso l’utilizzo di sensori “CGM” (“Continuous Glucose Monitoring” system) [6],che permettono al paziente di avere informazioni (quasi) continue sui livelli di glicemia, ma anche sulla sua variabilità.La disponibilità di una sempre più elevata quantità di dati di glicemia,derivanti dall’utilizzo di tali sensori,ha fatto emergere l’idea di sviluppare anche per il diabete una “medicina di precisione”,che si propone di sviluppare terapie ottimizzate sul paziente e sul suo stato di salute [7].In particolare,attraverso metodologie di “clustering”,si possono pensare di individuare sottogruppi di pazienti con caratteristiche simili,rendendo queste quindi uno strumento promettente per la medicina nell’era dei “big data” al fine di individuare o sviluppare terapie sempre più personalizzate.Questo è proprio ciò che si propone di fare il seguente lavoro di tesi.L’obbiettivo è quello di applicare le tecniche di clustering a lunghe serie di dati CGM,al fine,in primis,di individuare sottogruppi di soggetti o pattern glicemici simili,e successivamente di indagare su possibili applicazioni future:per fare ciò, sono stati utilizzati due algoritmi appartenenti allo stato dell’arte (k-means e clustering gerarchico) su un database di dati CGM raccolti con il sistema di pancreas artificiale open-source OpenAPS.Sono stati ottenuti un totale di 6 cluster per i profili dei pazienti e 8 cluster per i profili glicemici settimanali, analizzati in ultima battuta per indagare sul loro utilizzo nello sviluppo di possibili strumenti di ausilio alla terapia dei pazienti.La tesi è strutturata in 7 capitoli.Nel capitolo 1 vengono introdotte la patologia del diabete, le principali tecniche di monitoraggio glicemico ed infine le nuove tendenze in ambito di studio e controllo della malattia.Nel capitolo 2 vengono presentati dataset e fase di “preprocessing”.Nel capitolo 3 si riporta la descrizione della fase di estrazione delle features.Nel capitolo 4 invece vengono descritte le tecniche di clustering utilizzate e le loro caratteristiche.Nel capitolo 5 vengono presentati i risultati sulle due analisi condotte in parallelo su pazienti e pattern glicemici settimanali.Nel capitolo 6 vengono esplorate possibili applicazioni dei risultati ottenuti,mentre,infine,nel capitolo 7 sono riportati brevemente possibili sviluppi futuri del progetto presentato, assieme alle conclusioni sul lavoro svolto.