Accurate dementia classification remains a major challenge in clinical neuroscience. Conventional diagnostic tools often provide only partial insights rather than a comprehensive picture of the patient, limiting their ability to distinguish between Alzheimer’s disease (AD), frontotemporal dementia (FTD), and cognitively normal (CN) individuals. Multimodal learning offers a promising alternative by integrating heterogeneous biomedical data to construct richer and more informative patient representations. In this work, we combine electroencephalography (EEG) and clinical data (CD) from the publicly available BrainLat dataset to explore both unimodal and multimodal learning strategies. EEG signals were converted into ROI-based spectrograms to emphasize spatially localized spectral dynamics, while clinical variables were standardized into compact feature vectors. Building on these inputs, we implemented both unimodal architectures and multimodal fusion strategies (late and middle fusion), refined through specialized training strategies, regularization techniques, and structured hyperparameter search. Our results confirm EEG as the most discriminative unimodal modality, with ResNet3D outperforming its 2D counterpart through volumetric spatio-temporal modeling. More importantly, multimodal fusion consistently surpassed unimodal baselines: middle fusion achieved the highest balanced accuracy and lowest variability, while lightweight late fusion improved performance without increasing complexity. These findings underscore the clinical value of EEG and CD, the advantages of spatio-temporal representations, and the robustness of moldel complexity. Key strengths include the custom ROI-based EEG feature extraction pipeline, which enhanced biological plausibility, and the extensive benchmarking framework covering a wide range of architectures and strategies. The principal limitation remains the relatively small cohort. Future research should refine EEG feature extraction to reflect disease-specific patterns and explore advanced middle-fusion mechanisms such as gating with projection layers. Taken together, this work highlights the potential of multimodal learning to enhance the accuracy, robustness, and clinical applicability of dementia diagnosis.

La classificazione accurata delle demenze rimane una sfida cruciale nelle neuroscienze cliniche. Gli strumenti diagnostici convenzionali forniscono spesso soltanto informazioni parziali, senza restituire un quadro complessivo del paziente, limitandone l’efficacia nel distinguere tra malattia di Alzheimer (AD), demenza frontotemporale (FTD) e soggetti cognitivamente normali (CN). L’apprendimento multimodale rappresenta un’alternativa promettente, poiché integra dati biomedici eterogenei per costruire rappresentazioni del paziente più ricche e informative. In questo lavoro vengono combinati elettroencefalografia (EEG) e dati clinici (CD) provenienti dal dataset pubblico BrainLat, al fine di esplorare strategie di apprendimento unimodale e multimodale. I segnali EEG sono stati trasformati in spettrogrammi ROI-based, così da enfatizzare le dinamiche spettrali localizzate nello spazio, mentre le variabili cliniche sono state standardizzate in vettori di caratteristiche compatti. Su questi input sono state implementate sia architetture unimodali sia strategie di fusione multimodale (late e middle fusion), affinate tramite strategie di addestramento specifiche, tecniche di regolarizzazione e una ricerca strutturata degli iperparametri. I risultati confermano l’EEG come la modalità unimodale più discriminativa, con ResNet3D che supera la sua controparte 2D grazie alla modellazione spaziotemporale volumetrica. Ancora più rilevante, la fusione multimodale ha superato costantemente le baseline unimodali: la middle fusion ha ottenuto la massima accuratezza bilanciata e la minore variabilità, mentre la late fusion ha migliorato le prestazioni senza aumentare la complessità architetturale. Questi risultati sottolineano il valore clinico di EEG e CD, i vantaggi delle rappresentazioni spaziotemporali e la solidità delle strategie di fusione. Tra i punti di forza emergono la pipeline personalizzata di estrazione delle feature EEG basata su ROI, che ne ha incrementato la plausibilità biologica, e l’ampio framework di benchmarking, che ha coperto numerose architetture e strategie. La principale limitazione resta la dimensione relativamente ridotta della coorte. Futuri studi dovranno affinare ulteriormente l’estrazione delle feature EEG in funzione dei pattern patologici specifici ed esplorare meccanismi avanzati di middle fusion, come il gating con layer di proiezione. Nel complesso, questo lavoro evidenzia il potenziale dell’apprendimento multimodale nel migliorare accuratezza, robustezza e applicabilità clinica della diagnosi di demenza.

Integrating EEG and Clinical Data with Multimodal Deep Learning for Dementia Diagnosis

COSTANTINI, RACHELE
2024/2025

Abstract

Accurate dementia classification remains a major challenge in clinical neuroscience. Conventional diagnostic tools often provide only partial insights rather than a comprehensive picture of the patient, limiting their ability to distinguish between Alzheimer’s disease (AD), frontotemporal dementia (FTD), and cognitively normal (CN) individuals. Multimodal learning offers a promising alternative by integrating heterogeneous biomedical data to construct richer and more informative patient representations. In this work, we combine electroencephalography (EEG) and clinical data (CD) from the publicly available BrainLat dataset to explore both unimodal and multimodal learning strategies. EEG signals were converted into ROI-based spectrograms to emphasize spatially localized spectral dynamics, while clinical variables were standardized into compact feature vectors. Building on these inputs, we implemented both unimodal architectures and multimodal fusion strategies (late and middle fusion), refined through specialized training strategies, regularization techniques, and structured hyperparameter search. Our results confirm EEG as the most discriminative unimodal modality, with ResNet3D outperforming its 2D counterpart through volumetric spatio-temporal modeling. More importantly, multimodal fusion consistently surpassed unimodal baselines: middle fusion achieved the highest balanced accuracy and lowest variability, while lightweight late fusion improved performance without increasing complexity. These findings underscore the clinical value of EEG and CD, the advantages of spatio-temporal representations, and the robustness of moldel complexity. Key strengths include the custom ROI-based EEG feature extraction pipeline, which enhanced biological plausibility, and the extensive benchmarking framework covering a wide range of architectures and strategies. The principal limitation remains the relatively small cohort. Future research should refine EEG feature extraction to reflect disease-specific patterns and explore advanced middle-fusion mechanisms such as gating with projection layers. Taken together, this work highlights the potential of multimodal learning to enhance the accuracy, robustness, and clinical applicability of dementia diagnosis.
2024
Integrating EEG and Clinical Data with Multimodal Deep Learning for Dementia Diagnosis
La classificazione accurata delle demenze rimane una sfida cruciale nelle neuroscienze cliniche. Gli strumenti diagnostici convenzionali forniscono spesso soltanto informazioni parziali, senza restituire un quadro complessivo del paziente, limitandone l’efficacia nel distinguere tra malattia di Alzheimer (AD), demenza frontotemporale (FTD) e soggetti cognitivamente normali (CN). L’apprendimento multimodale rappresenta un’alternativa promettente, poiché integra dati biomedici eterogenei per costruire rappresentazioni del paziente più ricche e informative. In questo lavoro vengono combinati elettroencefalografia (EEG) e dati clinici (CD) provenienti dal dataset pubblico BrainLat, al fine di esplorare strategie di apprendimento unimodale e multimodale. I segnali EEG sono stati trasformati in spettrogrammi ROI-based, così da enfatizzare le dinamiche spettrali localizzate nello spazio, mentre le variabili cliniche sono state standardizzate in vettori di caratteristiche compatti. Su questi input sono state implementate sia architetture unimodali sia strategie di fusione multimodale (late e middle fusion), affinate tramite strategie di addestramento specifiche, tecniche di regolarizzazione e una ricerca strutturata degli iperparametri. I risultati confermano l’EEG come la modalità unimodale più discriminativa, con ResNet3D che supera la sua controparte 2D grazie alla modellazione spaziotemporale volumetrica. Ancora più rilevante, la fusione multimodale ha superato costantemente le baseline unimodali: la middle fusion ha ottenuto la massima accuratezza bilanciata e la minore variabilità, mentre la late fusion ha migliorato le prestazioni senza aumentare la complessità architetturale. Questi risultati sottolineano il valore clinico di EEG e CD, i vantaggi delle rappresentazioni spaziotemporali e la solidità delle strategie di fusione. Tra i punti di forza emergono la pipeline personalizzata di estrazione delle feature EEG basata su ROI, che ne ha incrementato la plausibilità biologica, e l’ampio framework di benchmarking, che ha coperto numerose architetture e strategie. La principale limitazione resta la dimensione relativamente ridotta della coorte. Futuri studi dovranno affinare ulteriormente l’estrazione delle feature EEG in funzione dei pattern patologici specifici ed esplorare meccanismi avanzati di middle fusion, come il gating con layer di proiezione. Nel complesso, questo lavoro evidenzia il potenziale dell’apprendimento multimodale nel migliorare accuratezza, robustezza e applicabilità clinica della diagnosi di demenza.
Multimodal Learning
Dementia
EEG Data
Clinical Data
File in questo prodotto:
File Dimensione Formato  
Costantini_Rachele.pdf

accesso aperto

Dimensione 2.22 MB
Formato Adobe PDF
2.22 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/93668