Fenomeni di esplosione per il metodo di ottimizzazione della discesa del gradiente nell'addestramento di reti neurali artificiali

In this thesis we investigate the blow up phenomena for gradient descent optimization methods in the training of artificial neural networks with one neuron on the input layer, one neuron on the output layer, and one hidden layer. The paper mainly focuses on the case of ReLU activation function and proves that there exists a non-decreasing target function such that the risk function has a strictly positive threshold under which there are no critical points. This allows us to establish that, when the hidden layer is not made up of a single neuron, every gradient flow (GF) trajectory with an initial risk lower than the threshold, diverges. Furthermore, analyzing different types of activation function we show that there exist a Lipschtitz and a polynomial target function such that no global minima exists. This demonstrates that every GF, under the assumption that the limit inferior of its risk converges to the infimum of the risk, diverges.

In questa tesi indaghiamo i fenomeni di blow up per i metodi di ottimizzazione della discesa del gradiente nell'addestramento di reti neurali artificiali con un neurone nello strato di ingresso, un neurone nello strato di uscita e uno strato nascosto. Il lavoro si concentra principalmente sul caso con funzione di attivazione ReLU e dimostra che esiste una funzione obiettivo non decrescente tale che la funzione di rischio abbia un minorante strettamente positivo sotto il quale non ci sono punti critici. Questo ci permette di stabilire che, quando lo strato nascosto non è costituito da un singolo neurone, ogni traiettoria del flusso di gradiente (GF) con un rischio iniziale inferiore al minorante, diverge. Successivamente, analizzando diversi tipi di funzione di attivazione, dimostriamo l'esistenza di una funzione obiettivo polinomiale e di una funzione obiettivo Lipschitziana tali che non esistono minimi globali. Ciò dimostra che ogni GF, nell'ipotesi che il limite inferiore del suo rischio converga all'estremo inferiore del rischio, diverge.

Fenomeni di esplosione per il metodo di ottimizzazione della discesa del gradiente nell'addestramento di reti neurali artificiali

GALLON, DAVIDE

2021/2022

Abstract

In this thesis we investigate the blow up phenomena for gradient descent optimization methods in the training of artificial neural networks with one neuron on the input layer, one neuron on the output layer, and one hidden layer. The paper mainly focuses on the case of ReLU activation function and proves that there exists a non-decreasing target function such that the risk function has a strictly positive threshold under which there are no critical points. This allows us to establish that, when the hidden layer is not made up of a single neuron, every gradient flow (GF) trajectory with an initial risk lower than the threshold, diverges. Furthermore, analyzing different types of activation function we show that there exist a Lipschtitz and a polynomial target function such that no global minima exists. This demonstrates that every GF, under the assumption that the limit inferior of its risk converges to the infimum of the risk, diverges.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Dipartimento di Ingegneria Civile, Edile e Ambientale - ICEA
			
	Corso di studio
	
				MATHEMATICAL ENGINEERING - INGEGNERIA MATEMATICA Laurea Magistrale (D.M. 270/2004)
			
	Anno Accademico
	
				2021
			
	Titolo inglese
	
				Blow up phenomena for gradient descent optimization method in the training of artificial neural networks
			
	Abstract in italiano
	
				In questa tesi indaghiamo i fenomeni di blow up per i metodi di ottimizzazione della discesa del gradiente nell'addestramento di reti neurali artificiali con un neurone nello strato di ingresso, un neurone nello strato di uscita e uno strato nascosto.
Il lavoro si concentra principalmente sul caso con funzione di attivazione ReLU e dimostra che esiste una funzione obiettivo non decrescente tale che la funzione di rischio abbia un minorante strettamente positivo sotto il quale non ci sono punti critici. Questo ci permette di stabilire che, quando lo strato nascosto non è costituito da un singolo neurone, ogni traiettoria del flusso di gradiente (GF) con un rischio iniziale inferiore al minorante, diverge.
Successivamente, analizzando diversi tipi di funzione di attivazione, dimostriamo l'esistenza di una funzione obiettivo polinomiale e di una funzione obiettivo Lipschitziana tali che non esistono minimi globali.
Ciò dimostra che ogni GF, nell'ipotesi che il limite inferiore del suo rischio converga all'estremo inferiore del rischio, diverge.
			
	Parola chiave
	
				Neural networks
Gradient descent
Blow up phenomena
			
	Relatore
	
				LANZONI, STEFANO
			
	Correlatore
	
				JENTZEN, ARNULF
			
	Appare nelle tipologie:
	
				Lauree magistrali

File in questo prodotto:

File	Dimensione	Formato
Gallon_Davide.pdf accesso riservato Dimensione 791.57 kB Formato Adobe PDF	791.57 kB	Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/10206