With the advent of increasingly advanced hardware technologies, a rapid evolution occurred in the field of artificial intelligence: increasingly powerful processors, specialized GPUs and distributed computing architectures have revolutionized the field of neural networks. In this thesis, three key concepts are analyzed that have essentially redefined the design of machine learning models in the AI field. In particular, the Encoder/Decoder model, the attention mechanism and the Transformer architecture are explored, illustrating their behaviour, highlighting how they are related to each other and providing practical cases, with the aim of conducting an in-depth analysis of the their performance.

Con l’avvento di tecnologie hardware sempre più avanzate, si è vista una rapida evoluzione nell’ambito dell’intelligenza artificiale: processori sempre più potenti, GPU specializzate e architetture di calcolo distribuito hanno rivoluzionato il campo delle reti neurali. In questa tesi vengono analizzati tre concetti chiave che hanno essenzialmente ridefinito la progettazione dei modelli di apprendimento automatico nel campo AI. Viene esplorato in particolare il modello Encoder/Decoder, il meccanismo dell’attenzione e l’architettura Transformer, illustrando il loro funzionamento, mettendo in evidenza come siano correlati fra di loro e fornendo dei casi pratici, allo scopo di condurre un’analisi approfondita delle loro prestazioni.

Un percorso di avvicinamento ai modelli di apprendimento automatico basati su transformer

LAVEZZI, LUCA
2023/2024

Abstract

With the advent of increasingly advanced hardware technologies, a rapid evolution occurred in the field of artificial intelligence: increasingly powerful processors, specialized GPUs and distributed computing architectures have revolutionized the field of neural networks. In this thesis, three key concepts are analyzed that have essentially redefined the design of machine learning models in the AI field. In particular, the Encoder/Decoder model, the attention mechanism and the Transformer architecture are explored, illustrating their behaviour, highlighting how they are related to each other and providing practical cases, with the aim of conducting an in-depth analysis of the their performance.
2023
A Pathway to Transformer-based Machine Learning Models
Con l’avvento di tecnologie hardware sempre più avanzate, si è vista una rapida evoluzione nell’ambito dell’intelligenza artificiale: processori sempre più potenti, GPU specializzate e architetture di calcolo distribuito hanno rivoluzionato il campo delle reti neurali. In questa tesi vengono analizzati tre concetti chiave che hanno essenzialmente ridefinito la progettazione dei modelli di apprendimento automatico nel campo AI. Viene esplorato in particolare il modello Encoder/Decoder, il meccanismo dell’attenzione e l’architettura Transformer, illustrando il loro funzionamento, mettendo in evidenza come siano correlati fra di loro e fornendo dei casi pratici, allo scopo di condurre un’analisi approfondita delle loro prestazioni.
AI
Machine learning
Transformer
File in questo prodotto:
File Dimensione Formato  
Lavezzi_Luca.pdf

accesso aperto

Dimensione 3.12 MB
Formato Adobe PDF
3.12 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/62676