In questa tesi due diversi modelli del sistema uditivo sono stati usati come metodo di estrazione di caratteristiche per un software di riconoscimento vocale. L'estrazione è stata operata utilizzando due modelli percettivi, originariamente implementati per simulare i risultati di diversi test psicoacustici (Dau et al. 1996a, 1997a). Il principale interesse è rivolto allo stadio di modulazione temporale dei modelli, poiché in diverse ricerche sono state trovate prove a sostegno dell'importanza di questo stadio (e. g. Drullman et al., 1994a,b; Drullman, 1995). La raccolta di maggiori informazioni riguardanti l'importanza delle modulazioni temporali all'interno di un framework di riconoscimento vocale, potrebbe portare ad una miglior comprensione del complesso meccanismo di analisi/riconoscimento vocale operata dal sistema uditivo umano. I modelli sono stati testati in diverse condizioni, ricavate da registrazioni sonore di materiale standard per lo studio di performance di algoritmi di riconoscimento vocale. In aggiunta, è stato fatto un tentativo di replicare i risultati ottenuti da Kanedera et. al (1999) atto a validare i risultati riguardo l'importanza percettiva delle diverse bande nel dominio della modulazione in frequenza

Implications of modulation filterbank processing for automatic speech recognition

Bernardi, Giuliano
2012/2013

Abstract

In questa tesi due diversi modelli del sistema uditivo sono stati usati come metodo di estrazione di caratteristiche per un software di riconoscimento vocale. L'estrazione è stata operata utilizzando due modelli percettivi, originariamente implementati per simulare i risultati di diversi test psicoacustici (Dau et al. 1996a, 1997a). Il principale interesse è rivolto allo stadio di modulazione temporale dei modelli, poiché in diverse ricerche sono state trovate prove a sostegno dell'importanza di questo stadio (e. g. Drullman et al., 1994a,b; Drullman, 1995). La raccolta di maggiori informazioni riguardanti l'importanza delle modulazioni temporali all'interno di un framework di riconoscimento vocale, potrebbe portare ad una miglior comprensione del complesso meccanismo di analisi/riconoscimento vocale operata dal sistema uditivo umano. I modelli sono stati testati in diverse condizioni, ricavate da registrazioni sonore di materiale standard per lo studio di performance di algoritmi di riconoscimento vocale. In aggiunta, è stato fatto un tentativo di replicare i risultati ottenuti da Kanedera et. al (1999) atto a validare i risultati riguardo l'importanza percettiva delle diverse bande nel dominio della modulazione in frequenza
2012-10-22
90
Auditory processing, ASR, Auditory filterbank
File in questo prodotto:
File Dimensione Formato  
Giuliano_Bernardi.pdf

accesso aperto

Dimensione 5.81 MB
Formato Adobe PDF
5.81 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/16293