In questa tesi due diversi modelli del sistema uditivo sono stati usati come metodo di estrazione di caratteristiche per un software di riconoscimento vocale. L'estrazione è stata operata utilizzando due modelli percettivi, originariamente implementati per simulare i risultati di diversi test psicoacustici (Dau et al. 1996a, 1997a). Il principale interesse è rivolto allo stadio di modulazione temporale dei modelli, poiché in diverse ricerche sono state trovate prove a sostegno dell'importanza di questo stadio (e. g. Drullman et al., 1994a,b; Drullman, 1995). La raccolta di maggiori informazioni riguardanti l'importanza delle modulazioni temporali all'interno di un framework di riconoscimento vocale, potrebbe portare ad una miglior comprensione del complesso meccanismo di analisi/riconoscimento vocale operata dal sistema uditivo umano. I modelli sono stati testati in diverse condizioni, ricavate da registrazioni sonore di materiale standard per lo studio di performance di algoritmi di riconoscimento vocale. In aggiunta, è stato fatto un tentativo di replicare i risultati ottenuti da Kanedera et. al (1999) atto a validare i risultati riguardo l'importanza percettiva delle diverse bande nel dominio della modulazione in frequenza
Implications of modulation filterbank processing for automatic speech recognition
Bernardi, Giuliano
2012/2013
Abstract
In questa tesi due diversi modelli del sistema uditivo sono stati usati come metodo di estrazione di caratteristiche per un software di riconoscimento vocale. L'estrazione è stata operata utilizzando due modelli percettivi, originariamente implementati per simulare i risultati di diversi test psicoacustici (Dau et al. 1996a, 1997a). Il principale interesse è rivolto allo stadio di modulazione temporale dei modelli, poiché in diverse ricerche sono state trovate prove a sostegno dell'importanza di questo stadio (e. g. Drullman et al., 1994a,b; Drullman, 1995). La raccolta di maggiori informazioni riguardanti l'importanza delle modulazioni temporali all'interno di un framework di riconoscimento vocale, potrebbe portare ad una miglior comprensione del complesso meccanismo di analisi/riconoscimento vocale operata dal sistema uditivo umano. I modelli sono stati testati in diverse condizioni, ricavate da registrazioni sonore di materiale standard per lo studio di performance di algoritmi di riconoscimento vocale. In aggiunta, è stato fatto un tentativo di replicare i risultati ottenuti da Kanedera et. al (1999) atto a validare i risultati riguardo l'importanza percettiva delle diverse bande nel dominio della modulazione in frequenzaFile | Dimensione | Formato | |
---|---|---|---|
Giuliano_Bernardi.pdf
accesso aperto
Dimensione
5.81 MB
Formato
Adobe PDF
|
5.81 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/16293