Questa tesi si propone di implementare e analizzare un sistema di riconoscimento vocale in tempo reale in locale utilizzando OpenAI Whisper, un modello avanzato basato su tecniche di deep learning. Whisper rappresenta lo stato dell’arte nella comprensione del parlato umano e si distingue per essere un modello open source. L’obiettivo principale è realizzare un sistema capace di effettuare una trascrizione in tempo reale in locale, con la prospettiva di poterlo applicare in contesti più ampi, ad esempio per l’interazione uomo-robot, o per la creazione di un chatbot basato sul linguaggio naturale. Sono stati condotti test valutando l’accuratezza e la velocità dei vari modelli proposti da Whisper, con attenzione particolare sull’impatto della tecnologia CUDA sulla velocità della trascrizione. I risultati ottenuti hanno evidenziato come non ci siano grosse differenze sulla qualità della trascrizione tra due modelli della stessa dimensione che utilizzano rispettivamente la CPU e i CUDA per l’inferenza, tuttavia è consigliabile possedere una GPU con tecnologia CUDA per garantire una trascrizione in italiano di qualità in tempo reale.
Riconoscimento del parlato mediante OpenAI Whisper
LODA, ENRICO
2023/2024
Abstract
Questa tesi si propone di implementare e analizzare un sistema di riconoscimento vocale in tempo reale in locale utilizzando OpenAI Whisper, un modello avanzato basato su tecniche di deep learning. Whisper rappresenta lo stato dell’arte nella comprensione del parlato umano e si distingue per essere un modello open source. L’obiettivo principale è realizzare un sistema capace di effettuare una trascrizione in tempo reale in locale, con la prospettiva di poterlo applicare in contesti più ampi, ad esempio per l’interazione uomo-robot, o per la creazione di un chatbot basato sul linguaggio naturale. Sono stati condotti test valutando l’accuratezza e la velocità dei vari modelli proposti da Whisper, con attenzione particolare sull’impatto della tecnologia CUDA sulla velocità della trascrizione. I risultati ottenuti hanno evidenziato come non ci siano grosse differenze sulla qualità della trascrizione tra due modelli della stessa dimensione che utilizzano rispettivamente la CPU e i CUDA per l’inferenza, tuttavia è consigliabile possedere una GPU con tecnologia CUDA per garantire una trascrizione in italiano di qualità in tempo reale.File | Dimensione | Formato | |
---|---|---|---|
Loda_Enrico.pdf
accesso aperto
Dimensione
1.3 MB
Formato
Adobe PDF
|
1.3 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/68816