Riconoscimento del parlato mediante OpenAI Whisper

Questa tesi si propone di implementare e analizzare un sistema di riconoscimento vocale in tempo reale in locale utilizzando OpenAI Whisper, un modello avanzato basato su tecniche di deep learning. Whisper rappresenta lo stato dell’arte nella comprensione del parlato umano e si distingue per essere un modello open source. L’obiettivo principale è realizzare un sistema capace di effettuare una trascrizione in tempo reale in locale, con la prospettiva di poterlo applicare in contesti più ampi, ad esempio per l’interazione uomo-robot, o per la creazione di un chatbot basato sul linguaggio naturale. Sono stati condotti test valutando l’accuratezza e la velocità dei vari modelli proposti da Whisper, con attenzione particolare sull’impatto della tecnologia CUDA sulla velocità della trascrizione. I risultati ottenuti hanno evidenziato come non ci siano grosse differenze sulla qualità della trascrizione tra due modelli della stessa dimensione che utilizzano rispettivamente la CPU e i CUDA per l’inferenza, tuttavia è consigliabile possedere una GPU con tecnologia CUDA per garantire una trascrizione in italiano di qualità in tempo reale.

Riconoscimento del parlato mediante OpenAI Whisper

LODA, ENRICO

2023/2024

Abstract

Questa tesi si propone di implementare e analizzare un sistema di riconoscimento vocale in tempo reale in locale utilizzando OpenAI Whisper, un modello avanzato basato su tecniche di deep learning. Whisper rappresenta lo stato dell’arte nella comprensione del parlato umano e si distingue per essere un modello open source. L’obiettivo principale è realizzare un sistema capace di effettuare una trascrizione in tempo reale in locale, con la prospettiva di poterlo applicare in contesti più ampi, ad esempio per l’interazione uomo-robot, o per la creazione di un chatbot basato sul linguaggio naturale. Sono stati condotti test valutando l’accuratezza e la velocità dei vari modelli proposti da Whisper, con attenzione particolare sull’impatto della tecnologia CUDA sulla velocità della trascrizione. I risultati ottenuti hanno evidenziato come non ci siano grosse differenze sulla qualità della trascrizione tra due modelli della stessa dimensione che utilizzano rispettivamente la CPU e i CUDA per l’inferenza, tuttavia è consigliabile possedere una GPU con tecnologia CUDA per garantire una trascrizione in italiano di qualità in tempo reale.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Dipartimento di Ingegneria dell'Informazione - DEI
			
	Corso di studio
	
				INGEGNERIA INFORMATICA Laurea di Primo Livello (D.M. 270/2004)
			
	Anno Accademico
	
				2023
			
	Titolo inglese
	
				Speech Recognition based on OpenAI Whisper
			
	Parola chiave
	
				IA
speech-to-text
interazione vocale
HRI
			
	Relatore
	
				BERALDO, GLORIA
			
	Appare nelle tipologie:
	
				Lauree triennali

File in questo prodotto:

File	Dimensione	Formato
Loda_Enrico.pdf accesso aperto Dimensione 1.3 MB Formato Adobe PDF Visualizza/Apri	1.3 MB	Adobe PDF	Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/68816