Questa tesi si propone di implementare e analizzare un sistema di riconoscimento vocale in tempo reale in locale utilizzando OpenAI Whisper, un modello avanzato basato su tecniche di deep learning. Whisper rappresenta lo stato dell’arte nella comprensione del parlato umano e si distingue per essere un modello open source. L’obiettivo principale è realizzare un sistema capace di effettuare una trascrizione in tempo reale in locale, con la prospettiva di poterlo applicare in contesti più ampi, ad esempio per l’interazione uomo-robot, o per la creazione di un chatbot basato sul linguaggio naturale. Sono stati condotti test valutando l’accuratezza e la velocità dei vari modelli proposti da Whisper, con attenzione particolare sull’impatto della tecnologia CUDA sulla velocità della trascrizione. I risultati ottenuti hanno evidenziato come non ci siano grosse differenze sulla qualità della trascrizione tra due modelli della stessa dimensione che utilizzano rispettivamente la CPU e i CUDA per l’inferenza, tuttavia è consigliabile possedere una GPU con tecnologia CUDA per garantire una trascrizione in italiano di qualità in tempo reale.

Riconoscimento del parlato mediante OpenAI Whisper

LODA, ENRICO
2023/2024

Abstract

Questa tesi si propone di implementare e analizzare un sistema di riconoscimento vocale in tempo reale in locale utilizzando OpenAI Whisper, un modello avanzato basato su tecniche di deep learning. Whisper rappresenta lo stato dell’arte nella comprensione del parlato umano e si distingue per essere un modello open source. L’obiettivo principale è realizzare un sistema capace di effettuare una trascrizione in tempo reale in locale, con la prospettiva di poterlo applicare in contesti più ampi, ad esempio per l’interazione uomo-robot, o per la creazione di un chatbot basato sul linguaggio naturale. Sono stati condotti test valutando l’accuratezza e la velocità dei vari modelli proposti da Whisper, con attenzione particolare sull’impatto della tecnologia CUDA sulla velocità della trascrizione. I risultati ottenuti hanno evidenziato come non ci siano grosse differenze sulla qualità della trascrizione tra due modelli della stessa dimensione che utilizzano rispettivamente la CPU e i CUDA per l’inferenza, tuttavia è consigliabile possedere una GPU con tecnologia CUDA per garantire una trascrizione in italiano di qualità in tempo reale.
2023
Speech Recognition based on OpenAI Whisper
IA
speech-to-text
interazione vocale
HRI
File in questo prodotto:
File Dimensione Formato  
Loda_Enrico.pdf

accesso aperto

Dimensione 1.3 MB
Formato Adobe PDF
1.3 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/68816