Gli studi di associazione intervengono nello studio di dataset casi/controllo caratterizzati da un’importante mole di dati (tipicamente il numero di soggetti per classe è dell’ordine delle migliaia e il numero di variabili, i polimorfismi a singolo nucleotide, nell’ordine di 108 ) .È necessario operare una riduzione del numero di variabili iniziali per poter classificare. Dopo un’ analisi dello stato dell’arte, e dopo l’osservazione dei limiti principali dovuti essenzialmente alla feature selection e alla riduzione di informazione che ne consegue, in questa tesi si propone un nuovo approccio basato sulla definizione di mutua informazione per la definizione di metavariabili, da utilizzarsi poi nella classificazione. La metodologia viene applicata con successo su due distinti dataset, isolando in prima battuta il pathway dell’insulina e procedendo alla classificazione. L’applicazione del metodo nella sua completezza prevede la costruzione di un classificatore aggregato dei singoli classificatori costruiti su diversi pathway biologici

Studio di associazione Genome Wide: Preprocessing e Selezione SNPs

Bruscagin, Giulia
2011/2012

Abstract

Gli studi di associazione intervengono nello studio di dataset casi/controllo caratterizzati da un’importante mole di dati (tipicamente il numero di soggetti per classe è dell’ordine delle migliaia e il numero di variabili, i polimorfismi a singolo nucleotide, nell’ordine di 108 ) .È necessario operare una riduzione del numero di variabili iniziali per poter classificare. Dopo un’ analisi dello stato dell’arte, e dopo l’osservazione dei limiti principali dovuti essenzialmente alla feature selection e alla riduzione di informazione che ne consegue, in questa tesi si propone un nuovo approccio basato sulla definizione di mutua informazione per la definizione di metavariabili, da utilizzarsi poi nella classificazione. La metodologia viene applicata con successo su due distinti dataset, isolando in prima battuta il pathway dell’insulina e procedendo alla classificazione. L’applicazione del metodo nella sua completezza prevede la costruzione di un classificatore aggregato dei singoli classificatori costruiti su diversi pathway biologici
2011-04-18
167
SNPs, entropia, mutua informazione, test di associazione GWAS
File in questo prodotto:
File Dimensione Formato  
Studio_di_associazione_Genome_Wide_preprocessing_e_selezione_SNPs.pdf

accesso aperto

Dimensione 16.58 MB
Formato Adobe PDF
16.58 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/14509