La sclerosi multipla (SM) è una patologia che interessa il sistema nervoso centrale. È caratterizzata dalla presenza di lesioni sparse nel cervello e nel midollo spinale, note come placche, dove la mielina, la sostanza che agisce come isolante per le cellule nervose, viene compromessa. Di conseguenza, i nervi perdono la capacità di trasmettere correttamente i segnali causando una disabilità sia motoria che cognitiva. Questa malattia rappresenta una delle principali cause di disabilità neurologica tra i giovani adulti in tutto il mondo. La sua incidenza è in crescita a livello globale, così come l’impatto socioeconomico associato a questa patologia. Sebbene le cause precise della sclerosi multipla e i meccanismi alla base di questo aumento siano ancora poco chiari, si ritiene che le complesse interazioni tra fattori genetici e ambientali abbiano un ruolo significativo. In questa tesi sono stati analizzati dati demografici e clinici di 2465 soggetti affetti da sclerosi multipla forniti dal database MSOAC Placebo. Lo scopo è sviluppare un modello predittivo per predire se un paziente presenterà un peggioramento o meno della malattia a distanza di 6, 12 e 18 mesi dall’inizio del monitoraggio. Si sono sviluppati diversi modelli predittivi utilizzando tecniche di machine learning, con particolare attenzione al bilanciamento delle classi che definiscono l’outcome (peggioramento o non peggioramento). Questo squilibrio può risultare un problema in quanto se il modello impara principalmente dalla classe più numerosa rischia di ignorare i casi meno frequenti che sono solitamente i più critici, compromettendo la sua capacità di generalizzare correttamente ai nuovi dati. Per affrontare questo problema sono state applicate e confrontate diverse tecniche per il bilanciamento delle classi. In particolare, abbiamo utilizzato sia tecniche di bilanciamento classiche quali over-sampling e under- ed over-sampling, sia tecniche che generano istanze artificiali della classe di minoranza, quali SMOTE-NC (Synthetic Minority Over-sampling Technique for Nominal and Continuous), che crea nuove istanze di dati eseguendo un’interpolazione lineare tra i campioni della classe minoritaria e i loro K vicini più prossimi, e BOSME (Bayesian network-based over-sampling method) che, attraverso la creazione di una rete Bayesiana, crea istanze sintetiche per la classe minoritaria basandosi sulle distribuzioni di probabilità ottenute dalla rete. Gli algoritmi con i quali sono stati implementati i modelli (nel linguaggio R) sono quelli di regressione logistica e random forest: è stata quindi realizzata una classificazione nelle classi “Worsening” (se un paziente presenta un peggioramento) e “Not Worsening” (se la malattia è stabile o migliora nel tempo). Come soglia di classificazione del peggioramento (“Worsening”) della malattia è stata adottata una variazione dello score EDSS (Expanded Disability Status Scale) di almeno 1.5 rispetto al valore iniziale, valutata a distanza di 6, 12 e 18 mesi dall’inizio del monitoraggio. Per valutare le prestazioni dei modelli sono state utilizzate le seguenti metriche: l’AUC (Area Under The Receiver Operating Characteristic Curve), l’F1-score, l’MCC (Matthews Correlation Coefficient) e la PR-AUC (Area Under the Precision-Recall Curve). A 6 mesi, i migliori risultati di AUC (0,6881) e PR-AUC (0,1474) sono stati ottenuti bilanciando le classi con SMOTE-NC e applicando la regressione logistica, mentre i migliori valori di F1-score (0,2258) e MCC (0,1859) sono stati ottenuti con SMOTE-NC e random forest. A 12 mesi, l’under/over-sampling applicato alla random forest ha ottenuto i migliori valori di AUC (0,6706), F1-score (0,2667) e MCC (0,2116), oltre a una PR-AUC di 0,1421. A 18 mesi, il miglior approccio complessivo è stato l’utilizzo di SMOTE-NC con random forest, che ha ottenuto un’AUC di 0,7188, PR-AUC di 0,2412, F1-score di 0,3380 e MCC di 0,2776.

Sviluppo di modelli predittivi della progressione della sclerosi multipla: confronto tra tecniche per il bilanciamento delle classi

OTTONE, MARIA
2024/2025

Abstract

La sclerosi multipla (SM) è una patologia che interessa il sistema nervoso centrale. È caratterizzata dalla presenza di lesioni sparse nel cervello e nel midollo spinale, note come placche, dove la mielina, la sostanza che agisce come isolante per le cellule nervose, viene compromessa. Di conseguenza, i nervi perdono la capacità di trasmettere correttamente i segnali causando una disabilità sia motoria che cognitiva. Questa malattia rappresenta una delle principali cause di disabilità neurologica tra i giovani adulti in tutto il mondo. La sua incidenza è in crescita a livello globale, così come l’impatto socioeconomico associato a questa patologia. Sebbene le cause precise della sclerosi multipla e i meccanismi alla base di questo aumento siano ancora poco chiari, si ritiene che le complesse interazioni tra fattori genetici e ambientali abbiano un ruolo significativo. In questa tesi sono stati analizzati dati demografici e clinici di 2465 soggetti affetti da sclerosi multipla forniti dal database MSOAC Placebo. Lo scopo è sviluppare un modello predittivo per predire se un paziente presenterà un peggioramento o meno della malattia a distanza di 6, 12 e 18 mesi dall’inizio del monitoraggio. Si sono sviluppati diversi modelli predittivi utilizzando tecniche di machine learning, con particolare attenzione al bilanciamento delle classi che definiscono l’outcome (peggioramento o non peggioramento). Questo squilibrio può risultare un problema in quanto se il modello impara principalmente dalla classe più numerosa rischia di ignorare i casi meno frequenti che sono solitamente i più critici, compromettendo la sua capacità di generalizzare correttamente ai nuovi dati. Per affrontare questo problema sono state applicate e confrontate diverse tecniche per il bilanciamento delle classi. In particolare, abbiamo utilizzato sia tecniche di bilanciamento classiche quali over-sampling e under- ed over-sampling, sia tecniche che generano istanze artificiali della classe di minoranza, quali SMOTE-NC (Synthetic Minority Over-sampling Technique for Nominal and Continuous), che crea nuove istanze di dati eseguendo un’interpolazione lineare tra i campioni della classe minoritaria e i loro K vicini più prossimi, e BOSME (Bayesian network-based over-sampling method) che, attraverso la creazione di una rete Bayesiana, crea istanze sintetiche per la classe minoritaria basandosi sulle distribuzioni di probabilità ottenute dalla rete. Gli algoritmi con i quali sono stati implementati i modelli (nel linguaggio R) sono quelli di regressione logistica e random forest: è stata quindi realizzata una classificazione nelle classi “Worsening” (se un paziente presenta un peggioramento) e “Not Worsening” (se la malattia è stabile o migliora nel tempo). Come soglia di classificazione del peggioramento (“Worsening”) della malattia è stata adottata una variazione dello score EDSS (Expanded Disability Status Scale) di almeno 1.5 rispetto al valore iniziale, valutata a distanza di 6, 12 e 18 mesi dall’inizio del monitoraggio. Per valutare le prestazioni dei modelli sono state utilizzate le seguenti metriche: l’AUC (Area Under The Receiver Operating Characteristic Curve), l’F1-score, l’MCC (Matthews Correlation Coefficient) e la PR-AUC (Area Under the Precision-Recall Curve). A 6 mesi, i migliori risultati di AUC (0,6881) e PR-AUC (0,1474) sono stati ottenuti bilanciando le classi con SMOTE-NC e applicando la regressione logistica, mentre i migliori valori di F1-score (0,2258) e MCC (0,1859) sono stati ottenuti con SMOTE-NC e random forest. A 12 mesi, l’under/over-sampling applicato alla random forest ha ottenuto i migliori valori di AUC (0,6706), F1-score (0,2667) e MCC (0,2116), oltre a una PR-AUC di 0,1421. A 18 mesi, il miglior approccio complessivo è stato l’utilizzo di SMOTE-NC con random forest, che ha ottenuto un’AUC di 0,7188, PR-AUC di 0,2412, F1-score di 0,3380 e MCC di 0,2776.
2024
Development of predictive models of multiple sclerosis progression: comparison of class balancing techniques
sclerosi multipla
modelli predittivi
bilanciamento classi
File in questo prodotto:
File Dimensione Formato  
Ottone_Maria.pdf

accesso riservato

Dimensione 4.48 MB
Formato Adobe PDF
4.48 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/85248