L’analisi di dati di espressione genica ha avuto un notevole sviluppo negli ultimi anni ed ha un ruolo sempre più importante nella ricerca medica e biologica. Lo studio dell’espressione genica è stato fondamentale nella ricerca di numerose malattie, come i tumori, caratterizzate da particolari alterazioni geniche. Le tecnologie che permettono di rilevare i dati di espressione genica sono infatti sempre più utilizzate negli studi legati allo sviluppo embrionale, all’oncologia e all’immunologia. All’interno di una cellula le molecole influenzano numerosi meccanismi fisici e chimici. Le proteine, ad esempio, si condizionano a vicenda ed influenzano anche il processo di trascrizione del DNA. Le interazioni tra molecole sono dunque fondamentali per la biologia e proprio per questo motivo le reti e i grafi sono ampiamente utilizzati per riassumere ed interpretare i sistemi biologici. Con grafo si intende lo strumento matematico utile per la rappresentazione di relazioni tra un insieme di nodi. Nel caso delle reti biologiche i nodi corrispondo a specifiche molecole e gli archi indicano le relazioni tra esse. Tipicamente la struttura del grafo non è nota a priori ed esistono numerosi metodi per stimarla a partire dai dati a disposizione. Queste tecniche si sono molto diffuse negli ultimi anni e sono state fortemente utilizzate per la modellazione di interazioni complesse tra geni. I dati utilizzati in questo documento provengono da un campione di cellule tumorali del polmone trattate con l’inibitore di KRAS(G12C), farmaco antitumorale a bersaglio molecolare. G12C è una delle più comuni alterazioni del gene KRAS ed è fortemente coinvolto nella genesi del tumore al polmone. L’inibitore di questa mutazione ha superato la prima fase della sperimentazione clinica e i dati ottenuti fino a questo momento mostrano una risposta tumorale parziale nei soggetti malati. I dati sono stati raccolti tramite sequenziamento dell’RNA (RNA-seq) che è la tecnica maggiormente utilizzata per profilare l’espressione genica. Più precisamente, il sequenziamento è avvenuto a livello di singola cellula (scRNA-seq), tecnica che produce dati di conteggio con alta dimensionalità, elevata varianza ed eccesso di zeri. I metodi per l’apprendimento della struttura dei grafi diretti e indiretti utilizzati in questa tesi si basano sulle distribuzioni di Poisson, binomiale negativa e binomiale negativa a inflazione di zeri.

Applicazione dei metodi per l’apprendimento della struttura dei grafi a partire dai dati di scRNA-seq

BARONE, ANNA
2021/2022

Abstract

L’analisi di dati di espressione genica ha avuto un notevole sviluppo negli ultimi anni ed ha un ruolo sempre più importante nella ricerca medica e biologica. Lo studio dell’espressione genica è stato fondamentale nella ricerca di numerose malattie, come i tumori, caratterizzate da particolari alterazioni geniche. Le tecnologie che permettono di rilevare i dati di espressione genica sono infatti sempre più utilizzate negli studi legati allo sviluppo embrionale, all’oncologia e all’immunologia. All’interno di una cellula le molecole influenzano numerosi meccanismi fisici e chimici. Le proteine, ad esempio, si condizionano a vicenda ed influenzano anche il processo di trascrizione del DNA. Le interazioni tra molecole sono dunque fondamentali per la biologia e proprio per questo motivo le reti e i grafi sono ampiamente utilizzati per riassumere ed interpretare i sistemi biologici. Con grafo si intende lo strumento matematico utile per la rappresentazione di relazioni tra un insieme di nodi. Nel caso delle reti biologiche i nodi corrispondo a specifiche molecole e gli archi indicano le relazioni tra esse. Tipicamente la struttura del grafo non è nota a priori ed esistono numerosi metodi per stimarla a partire dai dati a disposizione. Queste tecniche si sono molto diffuse negli ultimi anni e sono state fortemente utilizzate per la modellazione di interazioni complesse tra geni. I dati utilizzati in questo documento provengono da un campione di cellule tumorali del polmone trattate con l’inibitore di KRAS(G12C), farmaco antitumorale a bersaglio molecolare. G12C è una delle più comuni alterazioni del gene KRAS ed è fortemente coinvolto nella genesi del tumore al polmone. L’inibitore di questa mutazione ha superato la prima fase della sperimentazione clinica e i dati ottenuti fino a questo momento mostrano una risposta tumorale parziale nei soggetti malati. I dati sono stati raccolti tramite sequenziamento dell’RNA (RNA-seq) che è la tecnica maggiormente utilizzata per profilare l’espressione genica. Più precisamente, il sequenziamento è avvenuto a livello di singola cellula (scRNA-seq), tecnica che produce dati di conteggio con alta dimensionalità, elevata varianza ed eccesso di zeri. I metodi per l’apprendimento della struttura dei grafi diretti e indiretti utilizzati in questa tesi si basano sulle distribuzioni di Poisson, binomiale negativa e binomiale negativa a inflazione di zeri.
2021
Application of the learning methods of graph structure based on scRNA-seq data
Modelli grafici
Sequenziamento RNA
Single cell
Inflazione di zeri
File in questo prodotto:
File Dimensione Formato  
Barone_Anna.pdf

accesso riservato

Dimensione 12.65 MB
Formato Adobe PDF
12.65 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/35381