Una volta effettuato il sequenziamento Sanger di un campione di DNA, è necessario valutare la correttezza del sequenziamento analizzando i segnali Raw Data ed Analyzed Data forniti dal sequenziatore per poter risalire ai problemi, legati alle tecniche di preparazione del campione o alla procedura di sequenziamento, che possono generare errori nella determinazione della sequenza. Tali analisi, detta in gergo troubleshooting, attualmente viene effettuata da biologi esperti, in quanto non esistono software che realizzano automaticamente questa analisi. In questa tesi è stato realizzato un algoritmo che compie l'analisi automatica dei segnali e classifica le problematiche in opportune categorie al fine di fornire un supporto efficiente e veloce al troubleshooting. Per realizzare l'algoritmo è stato utilizzato un training set di 167 sequenze con problematiche note. L'algoritmo, implementato in Matlab, utilizza tecniche di filtro a media mobile, di peak detection e altre metodologie tipiche dell'analisi del segnale. Per validare l'algoritmo sono state utilizzate 1200 sequenze con problematiche note. Per ogni problematica è stata testata la performance dell'algoritmo, valutando quante classificazioni corrette vengono da esso compiute. I risultati ottenuti sono buoni, superando per ogni problematica mediamente il 93% dell'assegnazione corretta, definita come il rapporto tra il numero dato dalla somma dei veri positivi e negativi e il numero di sequenze del validation test.

Algoritmi per l'analisi ed il troubueshooting di segnali di sequenziamento sanger del DNA

Costanza, Jole
2010/2011

Abstract

Una volta effettuato il sequenziamento Sanger di un campione di DNA, è necessario valutare la correttezza del sequenziamento analizzando i segnali Raw Data ed Analyzed Data forniti dal sequenziatore per poter risalire ai problemi, legati alle tecniche di preparazione del campione o alla procedura di sequenziamento, che possono generare errori nella determinazione della sequenza. Tali analisi, detta in gergo troubleshooting, attualmente viene effettuata da biologi esperti, in quanto non esistono software che realizzano automaticamente questa analisi. In questa tesi è stato realizzato un algoritmo che compie l'analisi automatica dei segnali e classifica le problematiche in opportune categorie al fine di fornire un supporto efficiente e veloce al troubleshooting. Per realizzare l'algoritmo è stato utilizzato un training set di 167 sequenze con problematiche note. L'algoritmo, implementato in Matlab, utilizza tecniche di filtro a media mobile, di peak detection e altre metodologie tipiche dell'analisi del segnale. Per validare l'algoritmo sono state utilizzate 1200 sequenze con problematiche note. Per ogni problematica è stata testata la performance dell'algoritmo, valutando quante classificazioni corrette vengono da esso compiute. I risultati ottenuti sono buoni, superando per ogni problematica mediamente il 93% dell'assegnazione corretta, definita come il rapporto tra il numero dato dalla somma dei veri positivi e negativi e il numero di sequenze del validation test.
2010-04-20
115
troubleshooting, sanger sequencing
File in questo prodotto:
File Dimensione Formato  
Costanza_Jole.pdf

accesso aperto

Dimensione 7.53 MB
Formato Adobe PDF
7.53 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/13391