Sviluppo e valutazione di una pipeline computazionale per la rilevazione e l'analisi di repeat expansions da dati di sequenziamento.

Repeat expansion (RE) diseases result from nucleotide expansions of at least three bases within the DNA. REs cause genetic disorders such as Huntington’s disease and various types of Ataxias. Identification and analysis of RE are usually performed by molecular laboratory techniques (e.g. PCR) although in recent years, the advent of next generation sequencing technologies allowed the sequencing of DNA coding regions of DNA and also the entire genome, making the polymorphic regions identification, including REs, more efficient and quick. The expansion pathogenicity is determined by comparing the number of repetitions identified in a genomic region with ranges of normality, specific for the pathology. To analyze the large amount of data produced by NGS techniques, several bioinformatic methods, with different levels of performance were developed. The aim of this thesis was to study the state of art of available softwares for REs identification and, next, to develop a computational pipeline that combines the results of each program and finds out the pathogenicity of REs in real samples, taking into account the reference ranges. For this purpose, three tools were selected. Methodologically, the nucleotide sequences were first analyzed by these three tools and then their outputs were processed in order to find regions with common RE, and compared with specific reference ranges to determine their pathogenicity. The performance of this method was evaluated both on exome and genome samples from patients with known expansion pathology. As result, the pipeline correctly detected pathological REs specific of each disease, and, of note an increased sensitivity was observed using exome data for REs identification compared to genome sequences from the same sample. The application of this method to analyze NGS exomes from patients with RE diseases may be helpful in a better characterization of this kind of genetic disorders.

Le malattie da Repeat expansions (RE) sono una classe di patologie causati da espansioni nucleotidiche composte da almeno tre basi all’interno del DNA. Le RE causano disturbi genetici come la malattia di Huntington e vari tipi di Atassie. L’identificazione e l’analisi di RE avviene di norma tramite tecniche di laboratorio molecolare (i.e. PCR) anche se negli ultimi anni, l’avvento di nuove tecnologie di sequenziamento genico (NGS) ha permesso di analizzare le regioni codificanti di DNA ed anche l’intero genoma, alla ricerca di regioni polimorfiche, comprese le RE, in modo pi`u efficiente e rapido. La patogenicità di un’espansione viene determinata confrontando il numero di ripetizioni identificate in una regione genomica con degli intervalli di normalità, specifici per la patologia in analisi. Per analizzare la grande mole di dati NGS prodotti, sono stati sviluppati diversi metodi bioinformatici con performance diverse. L’obiettivo di questa tesi è studiare lo stato dell’arte dei software disponibili per l’identificazione di RE e successivamente sviluppare una pipeline computazionale che combini i risultati di ciascun programma, e determini la patogenicità delle RE in campioni reali, tenendo conto degli intervalli di riferimento. A tale scopo sono stati selezionati tre software di identificazione per RE. Metodologicamente, l’output dei tre tool è stato processato al fine di trovare regioni con RE in comune, che a loro volta sono state confrontate con specifici intervalli di riferimento per determinarne la patogenicità. La performance di tale metodo è stata testata su dati di esoma e di genoma sequenziati da campioni di pazienti con patologia da espansione nota. Come risultato la pipeline ha rilevato le RE patologiche caratteristiche di ciascuna malattia, con una maggiore sensibilità nell’identificazione delle RE utilizzando l’esoma piuttosto che il genoma dello stesso campione. L’applicazione di questo metodo all’analisi di esomi NGS da pazienti con malattie da RE, pu`o essere di supporto in una migliore caratterizzazione di queste tipologie di malattie genetiche.