In this thesis we investigate the blow up phenomena for gradient descent optimization methods in the training of artificial neural networks with one neuron on the input layer, one neuron on the output layer, and one hidden layer. The paper mainly focuses on the case of ReLU activation function and proves that there exists a non-decreasing target function such that the risk function has a strictly positive threshold under which there are no critical points. This allows us to establish that, when the hidden layer is not made up of a single neuron, every gradient flow (GF) trajectory with an initial risk lower than the threshold, diverges. Furthermore, analyzing different types of activation function we show that there exist a Lipschtitz and a polynomial target function such that no global minima exists. This demonstrates that every GF, under the assumption that the limit inferior of its risk converges to the infimum of the risk, diverges.

In questa tesi indaghiamo i fenomeni di blow up per i metodi di ottimizzazione della discesa del gradiente nell'addestramento di reti neurali artificiali con un neurone nello strato di ingresso, un neurone nello strato di uscita e uno strato nascosto. Il lavoro si concentra principalmente sul caso con funzione di attivazione ReLU e dimostra che esiste una funzione obiettivo non decrescente tale che la funzione di rischio abbia un minorante strettamente positivo sotto il quale non ci sono punti critici. Questo ci permette di stabilire che, quando lo strato nascosto non è costituito da un singolo neurone, ogni traiettoria del flusso di gradiente (GF) con un rischio iniziale inferiore al minorante, diverge. Successivamente, analizzando diversi tipi di funzione di attivazione, dimostriamo l'esistenza di una funzione obiettivo polinomiale e di una funzione obiettivo Lipschitziana tali che non esistono minimi globali. Ciò dimostra che ogni GF, nell'ipotesi che il limite inferiore del suo rischio converga all'estremo inferiore del rischio, diverge.

Fenomeni di esplosione per il metodo di ottimizzazione della discesa del gradiente nell'addestramento di reti neurali artificiali

GALLON, DAVIDE
2021/2022

Abstract

In this thesis we investigate the blow up phenomena for gradient descent optimization methods in the training of artificial neural networks with one neuron on the input layer, one neuron on the output layer, and one hidden layer. The paper mainly focuses on the case of ReLU activation function and proves that there exists a non-decreasing target function such that the risk function has a strictly positive threshold under which there are no critical points. This allows us to establish that, when the hidden layer is not made up of a single neuron, every gradient flow (GF) trajectory with an initial risk lower than the threshold, diverges. Furthermore, analyzing different types of activation function we show that there exist a Lipschtitz and a polynomial target function such that no global minima exists. This demonstrates that every GF, under the assumption that the limit inferior of its risk converges to the infimum of the risk, diverges.
2021
Blow up phenomena for gradient descent optimization method in the training of artificial neural networks
In questa tesi indaghiamo i fenomeni di blow up per i metodi di ottimizzazione della discesa del gradiente nell'addestramento di reti neurali artificiali con un neurone nello strato di ingresso, un neurone nello strato di uscita e uno strato nascosto. Il lavoro si concentra principalmente sul caso con funzione di attivazione ReLU e dimostra che esiste una funzione obiettivo non decrescente tale che la funzione di rischio abbia un minorante strettamente positivo sotto il quale non ci sono punti critici. Questo ci permette di stabilire che, quando lo strato nascosto non è costituito da un singolo neurone, ogni traiettoria del flusso di gradiente (GF) con un rischio iniziale inferiore al minorante, diverge. Successivamente, analizzando diversi tipi di funzione di attivazione, dimostriamo l'esistenza di una funzione obiettivo polinomiale e di una funzione obiettivo Lipschitziana tali che non esistono minimi globali. Ciò dimostra che ogni GF, nell'ipotesi che il limite inferiore del suo rischio converga all'estremo inferiore del rischio, diverge.
Neural networks
Gradient descent
Blow up phenomena
File in questo prodotto:
File Dimensione Formato  
Gallon_Davide.pdf

accesso riservato

Dimensione 791.57 kB
Formato Adobe PDF
791.57 kB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/10206