Analisi di dati di sopravvivenza per l'identificazione di biomarcatori prognostici a partire da dati di RNA-Seq in pazienti con Adenocarcinoma del colon (COAD)

The thesis begins with the verification of the reproducibility of the results presented in the article "Genome-wide Identification and Analysis of Prognostic Features in Human Cancer" by Smith and Sheltzer (2022). The authors, through a large-scale genomic analysis, identify thousands of prognostic biomarkers that highlight patients at higher risk of progression for various types of cancer. However, this thesis also aims to highlight the limitations and critical aspects of such analysis, seeking to address any gaps through more in-depth investigation. In particular, a subset of data available from the TCGA program was analyzed. RNA-seq data were used, focusing on patients with Colon Adenocarcinoma (COAD). These data were chosen as representative examples within the vast TCGA dataset. However, the various analyses and conclusions can be extended to other types of cancer and other platforms present in the database. Additionally, the analysis focused on a single biologically relevant pathway: hsa05230 (Central carbon metabolism in cancer - Homo sapiens). The analysis begins with simple Cox models, one for each gene, with and without confounders, as done by the article's authors. However, analyzing each gene individually may reveal spurious associations with survival, more due to gene correlation than to actual causality. Therefore, the thesis will evolve by using more complex models, considering multiple genes simultaneously to achieve a more accurate understanding of the relationships between the genome and prognosis.

L'elaborato parte dalla verifica della riproducibilità dei risultati presentati nell’articolo ”Genome-wide Identification and Analysis of Prognostic Features in Human Cancer” di Smith and Sheltzer (2022). Gli autori, mediante un’analisi genomica su larga scala, individuano migliaia di biomarcatori prognostici, i quali identificano i pazienti maggiormente a rischio di progressione di diversi tipi di cancro. Tuttavia, questa tesi si propone anche di evidenziare limiti e criticità di tale analisi, cercando di colmare eventuali lacune attraverso un’analisi maggiormente approfondita. In particolare, è stato analizzato un sottoinsieme dei dati disponibili nel programma TCGA. Sono stati utilizzati dati di RNA-seq e si è deciso di focalizzare l’analisi su pazienti affetti da Adenocarcinoma del Colon (COAD). Questi dati sono stati scelti come esempi rappresentativi all’interno del vasto dataset del TCGA, le diverse analisi e conclusioni, tuttavia, possono essere estese ad altri tipi di cancro e alle altre piattaforme presenti nel database. Inoltre, l’analisi si è concentrata su un singolo pathway considerato biologicamente rilevante: hsa05230 (Central carbon metabolism in cancer - Homo sapiens). Si parte con semplici modelli di Cox, uno per ogni gene, con e senza confondenti, come fatto dagli autori dell’articolo. Tuttavia, analizzando ogni gene singolarmente, si potrebbero rilevare associazioni spurie con la sopravvivenza, dovute più alla correlazione tra i geni che a una vera e propria causalità. Pertanto, la tesi evolverà utilizzando modelli maggiormente complessi, considerando più geni simultaneamente per ottenere una comprensione più accurata delle relazioni tra genoma e prognosi.