Cancer is driven by combinations of somatic mutations that perturb pathways rather than single genes in isolation. Network-based subnetwork discovery methods exploit this principle by mapping mutations onto gene–gene interaction networks to identify groups of interacting genes that are collectively altered. In this thesis, we couple subnetwork discovery with biologically informed feature engineering for cancer-type prediction. Using TCGA somatic mutation profiles from 3,110 tumors across 11 cancer types, we first discover differentially mutated subnetworks and convert them into gene-level features. We then augment these with extrinsic, sample-level features and topological summaries computed over a protein interaction network. Six classifiers are evaluated over ten stratified 80/20 splits. Across datasets, simple mutation-count features consistently improve accuracy for most models; gene-role features also help, particularly on curated gene sets. When extrinsic and topological features are concatenated to the selected gene set, Logistic Regression, SVM, and Soft Voting significantly improve (one-sided Wilcoxon p < 0.01). Overall, integrating curated knowledge with data-driven subnetworks and carefully chosen sample-level descriptors yields improvements in tumor classification while highlighting the dataset- and model-dependence of topology-derived features.

Il cancro è guidato da combinazioni di mutazioni somatiche che perturbano interi pathway piuttosto che singoli geni isolati. I metodi di scoperta di subnetworks basati su reti sfruttano questo principio mappando le mutazioni sulle reti di interazione gene–gene per identificare gruppi di geni interagenti che risultano collettivamente alterati. In questa tesi, combiniamo la scoperta di subnetworks con un feature engineering biologicamente informato per la predizione del tipo di tumore. Utilizzando i profili di mutazioni somatiche di TCGA provenienti da 3.110 tumori appartenenti a 11 tipi di cancro, identifichiamo inizialmente subnetworks mutati in maniera differenziale e li convertiamo in features a livello genico. Successivamente li arricchiamo con features estrinseche a livello di campione e con sommari topologici calcolati su una rete di interazioni proteiche. Sei classificatori sono stati valutati su dieci suddivisioni stratificate 80/20. Su più dataset, semplici features basate sul conteggio delle mutazioni migliorano costantemente l’accuratezza della maggior parte dei modelli; anche le features legate al ruolo dei geni risultano utili, in particolare su insiemi di geni curati. Quando features estrinseche e topologiche vengono concatenate all’insieme genico selezionato, Logistic Regression, SVM e Soft Voting mostrano un miglioramento significativo (test di Wilcoxon unilaterale p < 0.01). Nel complesso, l’integrazione di conoscenza curata con subnetworks data-driven e descrittori a livello di campione scelti con cura porta a miglioramenti nella classificazione dei tumori, evidenziando al contempo la dipendenza dei risultati da dataset e modelli nell’utilizzo di features derivate dalla topologia.

Scoperta di sottoreti e progettazione di funzionalità per la previsione del tipo di cancro

MOHAMMADI, HAMID
2024/2025

Abstract

Cancer is driven by combinations of somatic mutations that perturb pathways rather than single genes in isolation. Network-based subnetwork discovery methods exploit this principle by mapping mutations onto gene–gene interaction networks to identify groups of interacting genes that are collectively altered. In this thesis, we couple subnetwork discovery with biologically informed feature engineering for cancer-type prediction. Using TCGA somatic mutation profiles from 3,110 tumors across 11 cancer types, we first discover differentially mutated subnetworks and convert them into gene-level features. We then augment these with extrinsic, sample-level features and topological summaries computed over a protein interaction network. Six classifiers are evaluated over ten stratified 80/20 splits. Across datasets, simple mutation-count features consistently improve accuracy for most models; gene-role features also help, particularly on curated gene sets. When extrinsic and topological features are concatenated to the selected gene set, Logistic Regression, SVM, and Soft Voting significantly improve (one-sided Wilcoxon p < 0.01). Overall, integrating curated knowledge with data-driven subnetworks and carefully chosen sample-level descriptors yields improvements in tumor classification while highlighting the dataset- and model-dependence of topology-derived features.
2024
Subnetwork Discovery and Feature Engineering for Cancer Type Prediction
Il cancro è guidato da combinazioni di mutazioni somatiche che perturbano interi pathway piuttosto che singoli geni isolati. I metodi di scoperta di subnetworks basati su reti sfruttano questo principio mappando le mutazioni sulle reti di interazione gene–gene per identificare gruppi di geni interagenti che risultano collettivamente alterati. In questa tesi, combiniamo la scoperta di subnetworks con un feature engineering biologicamente informato per la predizione del tipo di tumore. Utilizzando i profili di mutazioni somatiche di TCGA provenienti da 3.110 tumori appartenenti a 11 tipi di cancro, identifichiamo inizialmente subnetworks mutati in maniera differenziale e li convertiamo in features a livello genico. Successivamente li arricchiamo con features estrinseche a livello di campione e con sommari topologici calcolati su una rete di interazioni proteiche. Sei classificatori sono stati valutati su dieci suddivisioni stratificate 80/20. Su più dataset, semplici features basate sul conteggio delle mutazioni migliorano costantemente l’accuratezza della maggior parte dei modelli; anche le features legate al ruolo dei geni risultano utili, in particolare su insiemi di geni curati. Quando features estrinseche e topologiche vengono concatenate all’insieme genico selezionato, Logistic Regression, SVM e Soft Voting mostrano un miglioramento significativo (test di Wilcoxon unilaterale p < 0.01). Nel complesso, l’integrazione di conoscenza curata con subnetworks data-driven e descrittori a livello di campione scelti con cura porta a miglioramenti nella classificazione dei tumori, evidenziando al contempo la dipendenza dei risultati da dataset e modelli nell’utilizzo di features derivate dalla topologia.
Feature Engineering
Data Analysis
Subnetwork Discovery
File in questo prodotto:
File Dimensione Formato  
Mohammadi_Hamid.pdf

accesso aperto

Dimensione 1.01 MB
Formato Adobe PDF
1.01 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/95451