This study addresses the issue of speech and listening impairments, highlighting the potential for improvement through targeted training. The University of Padua's Computer engineering for music and multimedia (CSC) Lab is developing an online service, SoundRise, to help individuals refine their pronunciation skills. The platform provides a user-friendly interface for identifying vowel pitch and volume through audio analysis. As artificial intelligence continues to gain attention and improve various industries, this thesis aims to investigate the feasibility of integrating AI into this training service SoundRise. By incorporating AI training into vowel recognition, this thesis seeks to contribute to speech rehabilitation, offering a direct approach to learning and evaluating speech. This research explores vowel recognition in Italian using Convolutional Neural Networks (CNNs) and introduces a new dataset covering five vowels (/a/, /e/, /i/, /o/, and /u/) for future applications. The results demonstrate the effectiveness of this system in recognizing vowel types, potentially enhancing outcomes for individuals with speech disorders.
Questo studio affronta il problema delle difficoltà di parola e di ascolto, evidenziando il potenziale miglioramento attraverso un addestramento mirato. Il Laboratorio di Ingegneria Informatica per la Musica e i Multimedia (CSC) dell'Università di Padova sta sviluppando un servizio online, SoundRise, per aiutare le persone a perfezionare le proprie competenze di pronuncia. La piattaforma offre un'interfaccia intuitiva per identificare il tono e il volume delle vocali tramite analisi audio. Poiché l'intelligenza artificiale continua a suscitare interesse e a migliorare vari settori, questa tesi mira a indagare la fattibilità dell'integrazione dell'IA in questo servizio di addestramento, SoundRise. Integrando l'addestramento basato sull'IA nel riconoscimento delle vocali, la tesi si propone di contribuire alla riabilitazione del linguaggio, offrendo un approccio diretto all'apprendimento e alla valutazione del parlato. La ricerca esplora il riconoscimento delle vocali in italiano utilizzando reti neurali convoluzionali (CNN) e introduce un nuovo dataset che copre cinque vocali (/a/, /e/, /i/, /o/ e /u/) per applicazioni future. I risultati dimostrano l'efficacia di questo sistema nel riconoscimento dei tipi di vocali, con il potenziale di migliorare i risultati per le persone con disturbi del linguaggio.
Uno studio preliminare sul riconoscimento delle vocali mediante reti neurali convoluzionali per individui con disturbi del linguaggio nella lingua italiana
CHEN, HUIMIN
2024/2025
Abstract
This study addresses the issue of speech and listening impairments, highlighting the potential for improvement through targeted training. The University of Padua's Computer engineering for music and multimedia (CSC) Lab is developing an online service, SoundRise, to help individuals refine their pronunciation skills. The platform provides a user-friendly interface for identifying vowel pitch and volume through audio analysis. As artificial intelligence continues to gain attention and improve various industries, this thesis aims to investigate the feasibility of integrating AI into this training service SoundRise. By incorporating AI training into vowel recognition, this thesis seeks to contribute to speech rehabilitation, offering a direct approach to learning and evaluating speech. This research explores vowel recognition in Italian using Convolutional Neural Networks (CNNs) and introduces a new dataset covering five vowels (/a/, /e/, /i/, /o/, and /u/) for future applications. The results demonstrate the effectiveness of this system in recognizing vowel types, potentially enhancing outcomes for individuals with speech disorders.File | Dimensione | Formato | |
---|---|---|---|
huimin_chen.pdf
accesso aperto
Dimensione
1.45 MB
Formato
Adobe PDF
|
1.45 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/83210