Riconoscimento delle emozioni della voce umana ai fini del dialogo tra umano e macchina

Il riconoscimento delle emozione della voce umana è un campo della ricerca che negli ultimi anni ha assunto grande importanza per le sue potenziali applicazioni future all'interno degli assistenti vocali e dei robot sociali. Nella tesi vengono esplorati modelli di deep learning con l'obiettivo di riconoscere le emozioni durante il dialogo. Tali modelli ricevono in ingresso delle immagini che rappresentano spettrogrammi di Mel ed MFCC, estratti da file audio. Successivamente, tali spettrogrammi sono forniti in input ai modelli per classificarli in base all'emozione. In questa tesi, si sono esplorati tre modelli di Convolutional Neural Network (CNN) che hanno dimostrato buone prestazioni nel riconoscimento delle immagini: VGG16, ResNet50 e Inception V3. Per allenarli sono stati scelti due dataset: Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) ed Emozionalmente, costituiti da un gran numero di registrazioni vocali in cui vengono espresse otto emozioni: neutralità, calma, felicità, tristezza, rabbia, disgusto, paura e sorpresa. Inoltre per testare le prestazioni e la capacità di classificazione dei modelli utilizzati in questa tesi, è stato creato il dataset Delilah contenente gli audio di cinque uomini e due donne che hanno espresso le otto emozioni citate in precedenza per gli altri dataset. Infine, è stato condotto un esperimento in cui i modelli usati sono stati utilizzati per riconoscere le corrispondenti emozioni durante un dialogo in tempo reale, dimostrando una buona velocità di classificazione pari a qualche secondo e confermando le prestazioni ottenute durante il training. A tale scopo, le reti convoluzionali sono state integrate nello script con modello di OpenAI Whisper, il quale ha tradotto da audio a testo la voce acquisita con il microfono e successivamente gTTS, una API di Google Translate, ha convertito in file audio la rispettiva risposta.

Riconoscimento delle emozioni della voce umana ai fini del dialogo tra umano e macchina

STELLA, FRANCESCO

2022/2023

Abstract

Il riconoscimento delle emozione della voce umana è un campo della ricerca che negli ultimi anni ha assunto grande importanza per le sue potenziali applicazioni future all'interno degli assistenti vocali e dei robot sociali. Nella tesi vengono esplorati modelli di deep learning con l'obiettivo di riconoscere le emozioni durante il dialogo. Tali modelli ricevono in ingresso delle immagini che rappresentano spettrogrammi di Mel ed MFCC, estratti da file audio. Successivamente, tali spettrogrammi sono forniti in input ai modelli per classificarli in base all'emozione. In questa tesi, si sono esplorati tre modelli di Convolutional Neural Network (CNN) che hanno dimostrato buone prestazioni nel riconoscimento delle immagini: VGG16, ResNet50 e Inception V3. Per allenarli sono stati scelti due dataset: Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) ed Emozionalmente, costituiti da un gran numero di registrazioni vocali in cui vengono espresse otto emozioni: neutralità, calma, felicità, tristezza, rabbia, disgusto, paura e sorpresa. Inoltre per testare le prestazioni e la capacità di classificazione dei modelli utilizzati in questa tesi, è stato creato il dataset Delilah contenente gli audio di cinque uomini e due donne che hanno espresso le otto emozioni citate in precedenza per gli altri dataset. Infine, è stato condotto un esperimento in cui i modelli usati sono stati utilizzati per riconoscere le corrispondenti emozioni durante un dialogo in tempo reale, dimostrando una buona velocità di classificazione pari a qualche secondo e confermando le prestazioni ottenute durante il training. A tale scopo, le reti convoluzionali sono state integrate nello script con modello di OpenAI Whisper, il quale ha tradotto da audio a testo la voce acquisita con il microfono e successivamente gTTS, una API di Google Translate, ha convertito in file audio la rispettiva risposta.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Dipartimento di Ingegneria dell'Informazione - DEI
			
	Corso di studio
	
				INGEGNERIA INFORMATICA Laurea di Primo Livello (D.M. 270/2004)
			
	Anno Accademico
	
				2022
			
	Titolo inglese
	
				Recognition of human voice emotions for human-machine dialogue
			
	Parola chiave
	
				IA
EMOTION RECOGNITION
HMI
PERSONALIZATION
			
	Relatore
	
				BERALDO, GLORIA
			
	Appare nelle tipologie:
	
				Lauree triennali

File in questo prodotto:

File	Dimensione	Formato
Stella_Francesco.pdf accesso aperto Dimensione 3.1 MB Formato Adobe PDF Visualizza/Apri	3.1 MB	Adobe PDF	Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/53353