The past decade has seen a substantial increase in computational performance and the consequent increase in popularity of Deep Learning techniques to solve Computer Vision problems. At the same time, the exponential growth in the size of the Protein Data Bank incentivizes the research of classification methods suitable for predicting the chemical reaction catalyzed by enzymes, given their chemical composition and structure. This thesis paper presents an ensemble for the classification of the enzyme function (Enzyme Commission number) and suggests the fusion of two classifiers based on the spatial representation of backbone atoms with a classifier based on the amino acid sequence. The dataset consists of 63 556 files in PDB format, containing the atomic coordinates and the amino acid sequences. The ensemble performs the score-level fusion of three classifiers and compares the ACC and AUC performance. Two classifiers use a CNN based on the EnzyNet project to process the spatial representation of enzymes as binary voxels: the former uses two variants of the Adam optimizer, the latter uses the Sgdm optimizer, and both provide the sum of the scores after 10 retrains. The third classifier is a multiclass SVM that implements the LibSVM library and processes the representation of enzymes as amino acid sequences.

Lo scorso decennio ha visto un sostanziale incremento delle performance computazionali e il conseguente aumento di popolarità delle tecniche di Deep Learning per la risoluzione di problemi di Computer Vision. Contemporaneamente l’esponenziale crescita delle dimensioni della Protein Data Bank incentiva la ricerca di metodi di classificazione atti a predire la reazione chimica catalizzata dagli enzimi, data la loro composizione chimica e struttura. Questo elaborato di tesi presenta un ensemble per la classificazione della funzione enzimatica (Enzyme Commission number) e propone la fusione di due classificatori basati sulla rappresentazione spaziale degli atomi della backbone con un classificatore basato sulla sequenza di amminoacidi. Il dataset utilizzato è composto da 63 556 file in formato PDB, dai quali vengono estratte le coordinate atomiche e le sequenze. L’ensemble prevede la fusione di tre classificatori a livello di confidenza e vengono comparate le performance in termini di ACC e AUC. Due classificatori utilizzano una CNN basata sul progetto EnzyNet per l’elaborazione della rappresentazione spaziale degli enzimi come voxel binari: il primo utilizza due varianti dell’ottimizzatore Adam, il secondo utilizza l’ottimizzatore Sgdm, ed entrambi forniscono la somma degli score dopo 10 retrain. Il terzo classificatore è un SVM multiclasse che implementa la libreria LibSVM ed elabora la rappresentazione degli enzimi come sequenze di amminoacidi.

Classificazione della rappresentazione spaziale di enzimi mediante reti neurali convoluzionali 3D

VALENTINUZZI, ANDREA
2021/2022

Abstract

The past decade has seen a substantial increase in computational performance and the consequent increase in popularity of Deep Learning techniques to solve Computer Vision problems. At the same time, the exponential growth in the size of the Protein Data Bank incentivizes the research of classification methods suitable for predicting the chemical reaction catalyzed by enzymes, given their chemical composition and structure. This thesis paper presents an ensemble for the classification of the enzyme function (Enzyme Commission number) and suggests the fusion of two classifiers based on the spatial representation of backbone atoms with a classifier based on the amino acid sequence. The dataset consists of 63 556 files in PDB format, containing the atomic coordinates and the amino acid sequences. The ensemble performs the score-level fusion of three classifiers and compares the ACC and AUC performance. Two classifiers use a CNN based on the EnzyNet project to process the spatial representation of enzymes as binary voxels: the former uses two variants of the Adam optimizer, the latter uses the Sgdm optimizer, and both provide the sum of the scores after 10 retrains. The third classifier is a multiclass SVM that implements the LibSVM library and processes the representation of enzymes as amino acid sequences.
2021
Enzyme classification using 3D convolutional neural networks on spatial representation
Lo scorso decennio ha visto un sostanziale incremento delle performance computazionali e il conseguente aumento di popolarità delle tecniche di Deep Learning per la risoluzione di problemi di Computer Vision. Contemporaneamente l’esponenziale crescita delle dimensioni della Protein Data Bank incentiva la ricerca di metodi di classificazione atti a predire la reazione chimica catalizzata dagli enzimi, data la loro composizione chimica e struttura. Questo elaborato di tesi presenta un ensemble per la classificazione della funzione enzimatica (Enzyme Commission number) e propone la fusione di due classificatori basati sulla rappresentazione spaziale degli atomi della backbone con un classificatore basato sulla sequenza di amminoacidi. Il dataset utilizzato è composto da 63 556 file in formato PDB, dai quali vengono estratte le coordinate atomiche e le sequenze. L’ensemble prevede la fusione di tre classificatori a livello di confidenza e vengono comparate le performance in termini di ACC e AUC. Due classificatori utilizzano una CNN basata sul progetto EnzyNet per l’elaborazione della rappresentazione spaziale degli enzimi come voxel binari: il primo utilizza due varianti dell’ottimizzatore Adam, il secondo utilizza l’ottimizzatore Sgdm, ed entrambi forniscono la somma degli score dopo 10 retrain. Il terzo classificatore è un SVM multiclasse che implementa la libreria LibSVM ed elabora la rappresentazione degli enzimi come sequenze di amminoacidi.
classificazione
enzimi
reti neurali
File in questo prodotto:
File Dimensione Formato  
Valentinuzzi_Andrea.pdf

accesso aperto

Dimensione 4.53 MB
Formato Adobe PDF
4.53 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/34559