Il riconoscimento delle emozione della voce umana è un campo della ricerca che negli ultimi anni ha assunto grande importanza per le sue potenziali applicazioni future all'interno degli assistenti vocali e dei robot sociali. Nella tesi vengono esplorati modelli di deep learning con l'obiettivo di riconoscere le emozioni durante il dialogo. Tali modelli ricevono in ingresso delle immagini che rappresentano spettrogrammi di Mel ed MFCC, estratti da file audio. Successivamente, tali spettrogrammi sono forniti in input ai modelli per classificarli in base all'emozione. In questa tesi, si sono esplorati tre modelli di Convolutional Neural Network (CNN) che hanno dimostrato buone prestazioni nel riconoscimento delle immagini: VGG16, ResNet50 e Inception V3. Per allenarli sono stati scelti due dataset: Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) ed Emozionalmente, costituiti da un gran numero di registrazioni vocali in cui vengono espresse otto emozioni: neutralità, calma, felicità, tristezza, rabbia, disgusto, paura e sorpresa. Inoltre per testare le prestazioni e la capacità di classificazione dei modelli utilizzati in questa tesi, è stato creato il dataset Delilah contenente gli audio di cinque uomini e due donne che hanno espresso le otto emozioni citate in precedenza per gli altri dataset. Infine, è stato condotto un esperimento in cui i modelli usati sono stati utilizzati per riconoscere le corrispondenti emozioni durante un dialogo in tempo reale, dimostrando una buona velocità di classificazione pari a qualche secondo e confermando le prestazioni ottenute durante il training. A tale scopo, le reti convoluzionali sono state integrate nello script con modello di OpenAI Whisper, il quale ha tradotto da audio a testo la voce acquisita con il microfono e successivamente gTTS, una API di Google Translate, ha convertito in file audio la rispettiva risposta.

Riconoscimento delle emozioni della voce umana ai fini del dialogo tra umano e macchina

STELLA, FRANCESCO
2022/2023

Abstract

Il riconoscimento delle emozione della voce umana è un campo della ricerca che negli ultimi anni ha assunto grande importanza per le sue potenziali applicazioni future all'interno degli assistenti vocali e dei robot sociali. Nella tesi vengono esplorati modelli di deep learning con l'obiettivo di riconoscere le emozioni durante il dialogo. Tali modelli ricevono in ingresso delle immagini che rappresentano spettrogrammi di Mel ed MFCC, estratti da file audio. Successivamente, tali spettrogrammi sono forniti in input ai modelli per classificarli in base all'emozione. In questa tesi, si sono esplorati tre modelli di Convolutional Neural Network (CNN) che hanno dimostrato buone prestazioni nel riconoscimento delle immagini: VGG16, ResNet50 e Inception V3. Per allenarli sono stati scelti due dataset: Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) ed Emozionalmente, costituiti da un gran numero di registrazioni vocali in cui vengono espresse otto emozioni: neutralità, calma, felicità, tristezza, rabbia, disgusto, paura e sorpresa. Inoltre per testare le prestazioni e la capacità di classificazione dei modelli utilizzati in questa tesi, è stato creato il dataset Delilah contenente gli audio di cinque uomini e due donne che hanno espresso le otto emozioni citate in precedenza per gli altri dataset. Infine, è stato condotto un esperimento in cui i modelli usati sono stati utilizzati per riconoscere le corrispondenti emozioni durante un dialogo in tempo reale, dimostrando una buona velocità di classificazione pari a qualche secondo e confermando le prestazioni ottenute durante il training. A tale scopo, le reti convoluzionali sono state integrate nello script con modello di OpenAI Whisper, il quale ha tradotto da audio a testo la voce acquisita con il microfono e successivamente gTTS, una API di Google Translate, ha convertito in file audio la rispettiva risposta.
2022
Recognition of human voice emotions for human-machine dialogue
IA
EMOTION RECOGNITION
HMI
PERSONALIZATION
File in questo prodotto:
File Dimensione Formato  
Stella_Francesco.pdf

accesso aperto

Dimensione 3.1 MB
Formato Adobe PDF
3.1 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/53353