Reti Neurali: Struttura generale, Apprendimento e Recurrent Neural Network

This thesis explores artificial neural networks, with a particular focus on their structure, learning mechanisms, and, most importantly, Recurrent Neural Networks (RNNs), which are designed to handle temporal sequences and internal dependencies. The first part introduces the fundamental theoretical concepts, moving from biologically inspired models to the main architectures such as MLPs, feed-forward networks, and RNNs themselves. It also covers the main learning paradigms: supervised, unsupervised, and reinforcement learning. Attention is then given to training techniques, including error backpropagation, gradient descent, adaptive optimizers, and regularization strategies to prevent overfitting. The second part focuses more specifically on RNNs, analyzing their basic architectures (such as Elman and Jordan models), the main challenges related to gradients (vanishing and exploding), and the most effective solutions like LSTM and GRU. Finally, the thesis presents a practical implementation of a sequence-to-sequence model based on LSTMs, developed to generate automatic responses in a chatbot context. The model was implemented in PyTorch and includes dataset preprocessing, architecture design, hyperparameter optimization, training algorithms, and experimental evaluation using metrics such as Perplexity. The results confirm the effectiveness of the chosen approach and highlight the competitiveness of the model compared to existing alternatives, while also suggesting promising directions for future developments.

Questa tesi si concentra sull’analisi delle reti neurali artificiali, con particolare attenzione alla loro struttura, ai meccanismi di apprendimento e, soprattutto, alle Reti Neurali Ricorrenti (RNN), progettate per gestire sequenze temporali e contesti con dipendenze interne. La prima parte del lavoro introduce i concetti teorici fondamentali, partendo dai modelli ispirati alla biologia fino ad arrivare alle principali architetture, come le reti MLP, feed-forward e le stesse RNN. Vengono inoltre descritti i principali paradigmi di apprendimento: supervisionato, non supervisionato e per rinforzo. Segue un approfondimento sulle tecniche di addestramento, in particolare sulla retropropagazione dell’errore, la discesa del gradiente, l’impiego di ottimizzatori adattivi e le strategie di regolarizzazione per contrastare l’overfitting. La seconda parte si focalizza in maniera più specifica sulle RNN, analizzandone le architetture di base (come i modelli di Elman e Jordan), le principali problematiche legate ai gradienti (vanishing ed exploding gradient) e le soluzioni più efficaci come LSTM e GRU. A completamento del lavoro, viene presentata l’implementazione concreta di un modello sequence-to-sequence basato su LSTM, progettato per generare risposte automatiche in un contesto chatbot. Il modello è stato sviluppato in PyTorch e comprende le fasi di preprocessing del dataset, definizione dell’architettura, ottimizzazione degli iperparametri, scelta dell’algoritmo di training e valutazione sperimentale tramite metriche come la Perplexity. I risultati ottenuti confermano la validità dell’approccio adottato e dimostrano la competitività del modello rispetto ad alternative esistenti, offrendo spunti interessanti per futuri sviluppi.