The understanding of the mechanisms and networks that regulate the metabolic and signalling pathways of living organisms is of pivotal importance in biological sciences. Strictly connected to it, is the functional characterization of genes and their expression products. Thanks to the advent of omic technologies, a huge amount of this kind of data is now accessible for thousands of species, covering almost the whole tree of life. Thanks to joint international efforts, the Gene Ontology Consortium provides an ontology (GO terms) to describe genes functions according to their subcellular localization, the molecular function that they carry out and the processes where they are involved. GO-coded functions are meant to be species-independent, but many represent functions, processes, and components that are not present in all types of organisms. The lack of an explicit formalisation of taxon constraints may lead to improper functional transfer among proteins of different species, especially among those automatically inferred. In this regard, it is possible to define taxonomic constraints, i.e. a list of statements that determine the possibility to use or not a particular GO term to annotate a gene product of a given taxon. Since 2010, GO Consortium formalised a list of manually validated taxonomic constraints and specified them at different levels of ontology. However, the manual definition of constraints for more than 40000 GO terms is not an affordable task and an automated procedure is needed. In this context, bioinformatics tools and computational pipelines can help manage the large amount of data and address these problems efficiently. For this reason, FunTaxIs (Functional Taxonomy Information System) has been developed in order to infer specificities and commonalities of the functions among different taxa and to determine which are the functions owned by a particular organism and those that are not. The tool provides GO taxon constraints starting from available information about the frequency of association between functions and taxa, retrievable from UniProt and Gene Ontology Annotation (GOA) databases. The tool proposed in this study, FunTaxIS-lite, is a lighter and easier to access version of FunTaxIS and it aims at restraining the use of GO terms in the Taxonomy of Species through the use of taxonomic constraints, exploiting the concept that some GO terms are inherently specific for certain organisms and could not be used to annotate proteins for other organisms. Initially, this tool was designed to help increasing the accuracy of Automated Protein Function Prediction (AFP) methods, but it was clear that it had also the potential of spotting erroneous annotations in the GOA database. In this project, we show that FunTaxIS-lite succeeds in both tasks and could be employed by that part of the scientific community working on AFP methods and to help GOC curators in improving the Gene Ontology resource.

La comprensione dei meccanismi che regolano le vie di signalling e dei processi metabolici degli organismi viventi è di fondamentale importanza nelle scienze biologiche. Strettamente connessa a questo è la caratterizzazione funzionale dei geni e dei loro prodotti di espressione. Grazie all'avvento delle tecnologie omiche, è oggi possibile avere accesso ad un importante quantitativo di dati reltivi a migliaia di specie lungo il quasi completo albero della vita. Grazie a sforzi internazionali congiunti, il Gene Ontology Consortium fornisce un'ontologia (termini GO) per la descrizione delle funzioni dei geni basata sulla loro localizzazione subcellulare, sulle funzioni da loro esplicate e sui precessi nei quali sono coinvolti. Le funzioni "GO-codificate" sono pensate per essere specie-indipendenti. Molte però rappresentano funzioni, processi e compartimenti cellulari che non sono presenti in tutti gli organismi. La mancanza di una formalizzazione esplicita dei vincoli tassonomici, potrebbe condurre a un trasferimento funzionale improprio tra proteine di specie differenti, soprattutto tra quelle inferite in maniera automatica. A tal proposito, è possibile definire vincoli tassonomici (linee guida che regolano la possibilità di utilizzare o meno un particolare termine GO per annotare il prodotto genico di un dato taxon). Fin dal 2010 il GO Consortium si occupa di formalizzare e specificare a diversi livelli ontologici una lista di vincoli tassonomici impliciti in alcune classi GO e validati manualmente. Nonostante ciò, la definizione manuale di vincoli per più di 40000 termini GO non è possibile e si rende quindi necessario l'utilizzo di procedure automatizzate. In questo contesto, i tool bioinformatici e le pipeline computazionali, possono aiutare nella gestione di grandi quantità di dati permettendo così di risolvere questo problema in maniera efficiente. Per questo motivo è stato sviluppato FunTaxIs (Functional Taxonomy Information System). Il suo fine è quello di inferire le specificità e le caratteristiche comuni delle funzioni di taxa differenti, determinando così quali siano e quali non siano le caratteristiche di un certo organismo. Il tool fornisce vincoli tassonomici a partire dalle informazioni disponibili sulla frequenza di associazione tra funzioni e taxa. Queste ultime sono ricavabili dai database UniProt e Gene Ontology Annotation (GOA). Il tool proposto in questo studio, FunTaxIS-lite è una versione più facilmente accessibile di FunTaxIS ed è volto a limitare l'uso dei termini GO nella Tassonomia delle Specie attraverso l'utilizzo dei vincoli tassonomici, sfruttando il concetto che alcuni termini GO sono intrinsecamente specifici per alcuni organisimi e non dovrebbero invece essere utilizzati per annotare proteine di altri organismi. Inizialmente, questo tool è stato progettato al fine di aumentare l'accuratezza dei metodi automatizzati di predizione di funzione proteica (AFP: Automated Protein Function Prediction methods), ma è stato fin da subito chiaro anche il suo potenziale nel trovare annotazioni erronee nel database GOA. In questo progetto mostriamo come FunTaxIS-lite abbia successo sotto entrambi i punti di vista e come possa essere impiegato dalla quella parte di comunità scientifica che lavora sui metodi AFP oltre che dai curatori del Gene Ontology Consortium nell'apportare miglioramenti alla Gene Ontology stessa.

Generation of automatic taxonomic constraints inferred by gene ontology annotations

GAZZOLA, ERMANNO
2021/2022

Abstract

The understanding of the mechanisms and networks that regulate the metabolic and signalling pathways of living organisms is of pivotal importance in biological sciences. Strictly connected to it, is the functional characterization of genes and their expression products. Thanks to the advent of omic technologies, a huge amount of this kind of data is now accessible for thousands of species, covering almost the whole tree of life. Thanks to joint international efforts, the Gene Ontology Consortium provides an ontology (GO terms) to describe genes functions according to their subcellular localization, the molecular function that they carry out and the processes where they are involved. GO-coded functions are meant to be species-independent, but many represent functions, processes, and components that are not present in all types of organisms. The lack of an explicit formalisation of taxon constraints may lead to improper functional transfer among proteins of different species, especially among those automatically inferred. In this regard, it is possible to define taxonomic constraints, i.e. a list of statements that determine the possibility to use or not a particular GO term to annotate a gene product of a given taxon. Since 2010, GO Consortium formalised a list of manually validated taxonomic constraints and specified them at different levels of ontology. However, the manual definition of constraints for more than 40000 GO terms is not an affordable task and an automated procedure is needed. In this context, bioinformatics tools and computational pipelines can help manage the large amount of data and address these problems efficiently. For this reason, FunTaxIs (Functional Taxonomy Information System) has been developed in order to infer specificities and commonalities of the functions among different taxa and to determine which are the functions owned by a particular organism and those that are not. The tool provides GO taxon constraints starting from available information about the frequency of association between functions and taxa, retrievable from UniProt and Gene Ontology Annotation (GOA) databases. The tool proposed in this study, FunTaxIS-lite, is a lighter and easier to access version of FunTaxIS and it aims at restraining the use of GO terms in the Taxonomy of Species through the use of taxonomic constraints, exploiting the concept that some GO terms are inherently specific for certain organisms and could not be used to annotate proteins for other organisms. Initially, this tool was designed to help increasing the accuracy of Automated Protein Function Prediction (AFP) methods, but it was clear that it had also the potential of spotting erroneous annotations in the GOA database. In this project, we show that FunTaxIS-lite succeeds in both tasks and could be employed by that part of the scientific community working on AFP methods and to help GOC curators in improving the Gene Ontology resource.
2021
Generation of automatic taxonomic constraints inferred by gene ontology annotations
La comprensione dei meccanismi che regolano le vie di signalling e dei processi metabolici degli organismi viventi è di fondamentale importanza nelle scienze biologiche. Strettamente connessa a questo è la caratterizzazione funzionale dei geni e dei loro prodotti di espressione. Grazie all'avvento delle tecnologie omiche, è oggi possibile avere accesso ad un importante quantitativo di dati reltivi a migliaia di specie lungo il quasi completo albero della vita. Grazie a sforzi internazionali congiunti, il Gene Ontology Consortium fornisce un'ontologia (termini GO) per la descrizione delle funzioni dei geni basata sulla loro localizzazione subcellulare, sulle funzioni da loro esplicate e sui precessi nei quali sono coinvolti. Le funzioni "GO-codificate" sono pensate per essere specie-indipendenti. Molte però rappresentano funzioni, processi e compartimenti cellulari che non sono presenti in tutti gli organismi. La mancanza di una formalizzazione esplicita dei vincoli tassonomici, potrebbe condurre a un trasferimento funzionale improprio tra proteine di specie differenti, soprattutto tra quelle inferite in maniera automatica. A tal proposito, è possibile definire vincoli tassonomici (linee guida che regolano la possibilità di utilizzare o meno un particolare termine GO per annotare il prodotto genico di un dato taxon). Fin dal 2010 il GO Consortium si occupa di formalizzare e specificare a diversi livelli ontologici una lista di vincoli tassonomici impliciti in alcune classi GO e validati manualmente. Nonostante ciò, la definizione manuale di vincoli per più di 40000 termini GO non è possibile e si rende quindi necessario l'utilizzo di procedure automatizzate. In questo contesto, i tool bioinformatici e le pipeline computazionali, possono aiutare nella gestione di grandi quantità di dati permettendo così di risolvere questo problema in maniera efficiente. Per questo motivo è stato sviluppato FunTaxIs (Functional Taxonomy Information System). Il suo fine è quello di inferire le specificità e le caratteristiche comuni delle funzioni di taxa differenti, determinando così quali siano e quali non siano le caratteristiche di un certo organismo. Il tool fornisce vincoli tassonomici a partire dalle informazioni disponibili sulla frequenza di associazione tra funzioni e taxa. Queste ultime sono ricavabili dai database UniProt e Gene Ontology Annotation (GOA). Il tool proposto in questo studio, FunTaxIS-lite è una versione più facilmente accessibile di FunTaxIS ed è volto a limitare l'uso dei termini GO nella Tassonomia delle Specie attraverso l'utilizzo dei vincoli tassonomici, sfruttando il concetto che alcuni termini GO sono intrinsecamente specifici per alcuni organisimi e non dovrebbero invece essere utilizzati per annotare proteine di altri organismi. Inizialmente, questo tool è stato progettato al fine di aumentare l'accuratezza dei metodi automatizzati di predizione di funzione proteica (AFP: Automated Protein Function Prediction methods), ma è stato fin da subito chiaro anche il suo potenziale nel trovare annotazioni erronee nel database GOA. In questo progetto mostriamo come FunTaxIS-lite abbia successo sotto entrambi i punti di vista e come possa essere impiegato dalla quella parte di comunità scientifica che lavora sui metodi AFP oltre che dai curatori del Gene Ontology Consortium nell'apportare miglioramenti alla Gene Ontology stessa.
FunTaxIs
Gene Ontology
Taxonomy
File in questo prodotto:
File Dimensione Formato  
Gazzola_Ermanno.pdf

accesso riservato

Dimensione 2.47 MB
Formato Adobe PDF
2.47 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/33072