Gli studi di associazione intervengono nello studio di dataset casi/controllo caratterizzati da un’importante mole di dati (tipicamente il numero di soggetti per classe è dell’ordine delle migliaia e il numero di variabili, i polimorfismi a singolo nucleotide, nell’ordine di 108 ) .È necessario operare una riduzione del numero di variabili iniziali per poter classificare. Dopo un’ analisi dello stato dell’arte, e dopo l’osservazione dei limiti principali dovuti essenzialmente alla feature selection e alla riduzione di informazione che ne consegue, in questa tesi si propone un nuovo approccio basato sulla definizione di mutua informazione per la definizione di metavariabili, da utilizzarsi poi nella classificazione. La metodologia viene applicata con successo su due distinti dataset, isolando in prima battuta il pathway dell’insulina e procedendo alla classificazione. L’applicazione del metodo nella sua completezza prevede la costruzione di un classificatore aggregato dei singoli classificatori costruiti su diversi pathway biologici
Studio di associazione Genome Wide: Preprocessing e Selezione SNPs
Bruscagin, Giulia
2011/2012
Abstract
Gli studi di associazione intervengono nello studio di dataset casi/controllo caratterizzati da un’importante mole di dati (tipicamente il numero di soggetti per classe è dell’ordine delle migliaia e il numero di variabili, i polimorfismi a singolo nucleotide, nell’ordine di 108 ) .È necessario operare una riduzione del numero di variabili iniziali per poter classificare. Dopo un’ analisi dello stato dell’arte, e dopo l’osservazione dei limiti principali dovuti essenzialmente alla feature selection e alla riduzione di informazione che ne consegue, in questa tesi si propone un nuovo approccio basato sulla definizione di mutua informazione per la definizione di metavariabili, da utilizzarsi poi nella classificazione. La metodologia viene applicata con successo su due distinti dataset, isolando in prima battuta il pathway dell’insulina e procedendo alla classificazione. L’applicazione del metodo nella sua completezza prevede la costruzione di un classificatore aggregato dei singoli classificatori costruiti su diversi pathway biologiciFile | Dimensione | Formato | |
---|---|---|---|
Studio_di_associazione_Genome_Wide_preprocessing_e_selezione_SNPs.pdf
accesso aperto
Dimensione
16.58 MB
Formato
Adobe PDF
|
16.58 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/14509