Negli ultimi anni i Transformer basati sull’Attenzione hanno ottenuto un enorme successo in una varietà di discipline. L’obiettivo di questo progetto è studiare la capacità dei Transformer di modellare sequenze aleatorie di dati. Si inizierà descrivendo l'architettura interna di un Transformer e la relativa fase di allenamento, successivamente si eseguiranno dei test variando particolari parametri e si mostreranno nel dettaglio le principali operazioni eseguite dal Transformer. A scopo didattico verrà mostrata anche la principale parte del codice sorgente e, infine, verranno tratte le conclusioni dello studio.

Modelli di sequenze aleatorie basati sul Transformer

SANDRON, PIERGIORGIO
2023/2024

Abstract

Negli ultimi anni i Transformer basati sull’Attenzione hanno ottenuto un enorme successo in una varietà di discipline. L’obiettivo di questo progetto è studiare la capacità dei Transformer di modellare sequenze aleatorie di dati. Si inizierà descrivendo l'architettura interna di un Transformer e la relativa fase di allenamento, successivamente si eseguiranno dei test variando particolari parametri e si mostreranno nel dettaglio le principali operazioni eseguite dal Transformer. A scopo didattico verrà mostrata anche la principale parte del codice sorgente e, infine, verranno tratte le conclusioni dello studio.
2023
Models of random sequences based on Transformers
Transformer
Processo Aleatorio
Machine Learning
Word Embedding
File in questo prodotto:
File Dimensione Formato  
Sandron_Piergiorgio.pdf

accesso aperto

Dimensione 208.52 kB
Formato Adobe PDF
208.52 kB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/71640