With the advent of increasingly advanced hardware technologies, a rapid evolution occurred in the field of artificial intelligence: increasingly powerful processors, specialized GPUs and distributed computing architectures have revolutionized the field of neural networks. In this thesis, three key concepts are analyzed that have essentially redefined the design of machine learning models in the AI field. In particular, the Encoder/Decoder model, the attention mechanism and the Transformer architecture are explored, illustrating their behaviour, highlighting how they are related to each other and providing practical cases, with the aim of conducting an in-depth analysis of the their performance.
Con l’avvento di tecnologie hardware sempre più avanzate, si è vista una rapida evoluzione nell’ambito dell’intelligenza artificiale: processori sempre più potenti, GPU specializzate e architetture di calcolo distribuito hanno rivoluzionato il campo delle reti neurali. In questa tesi vengono analizzati tre concetti chiave che hanno essenzialmente ridefinito la progettazione dei modelli di apprendimento automatico nel campo AI. Viene esplorato in particolare il modello Encoder/Decoder, il meccanismo dell’attenzione e l’architettura Transformer, illustrando il loro funzionamento, mettendo in evidenza come siano correlati fra di loro e fornendo dei casi pratici, allo scopo di condurre un’analisi approfondita delle loro prestazioni.
Un percorso di avvicinamento ai modelli di apprendimento automatico basati su transformer
LAVEZZI, LUCA
2023/2024
Abstract
With the advent of increasingly advanced hardware technologies, a rapid evolution occurred in the field of artificial intelligence: increasingly powerful processors, specialized GPUs and distributed computing architectures have revolutionized the field of neural networks. In this thesis, three key concepts are analyzed that have essentially redefined the design of machine learning models in the AI field. In particular, the Encoder/Decoder model, the attention mechanism and the Transformer architecture are explored, illustrating their behaviour, highlighting how they are related to each other and providing practical cases, with the aim of conducting an in-depth analysis of the their performance.File | Dimensione | Formato | |
---|---|---|---|
Lavezzi_Luca.pdf
accesso aperto
Dimensione
3.12 MB
Formato
Adobe PDF
|
3.12 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/62676