Abstract The proposed study takes speech banana, one of the methods used to represent phonemes on the audiogram that is described as a 'speech region', as a point of reflection. Looking at any graph representing the BS, one can see that each sound is indicated by a single point. Bearing in mind that the SB is a two-dimensional diagram, where on the X-axis are indicated the frequency values and on the Y-axis are indicated the intensity values, a single dot seems to indicate that the particular sound to which it refers consists only of the frequency component indicated by the position of the dot on the X-axis. In reality, the point indicated corresponds, from a frequency point of view, to the frequency value corresponding to the single component of greater amplitude than all the others, among all the components that, taken together, make up the phoneme. In reality, a phoneme is obtained from the sum of many harmonic components (Fourier's theorem) in addition to the fundamental component of greatest amplitude. If the phoneme were only generated by the single component indicated by the corresponding dot placed on the SB, the result would be a sound corresponding to a pure tone, therefore absolutely uninterpretable. At this point, it was necessary to understand up to what intensity, below that relating to the component of greatest amplitude, it is necessary to take into consideration the different formants that, as a whole, make up the phoneme. Tests were carried out on a number of phonemes and it was seen that taking into account the components with an amplitude of up to -24 dB relative to the fundamental component, the phoneme is acceptably comprehensible (tests carried out on normoacoustic subjects) even if its reproduction is not perfect. Taking into consideration an amplitude range of only 12 dB leads to a sound that is difficult to interpret, except for a few phonemes. The analysis performed, limited in the frequency domain, for a series of phonemes (not all those shown in the SR) was carried out on phonemes produced by two different subjects (a male and an adult female of Italian nationality, with good pronunciation, working in teaching at high school/university level), taking into consideration precisely a 24 dB range between the maximum amplitude component and the minimum amplitude component. The methodology used The phonemes analysed were obtained from a recording with high quality equipment, using professional studio microphones, microphone preamplifiers with a very low noise floor with a bandwidth of over 200 kHz, an analogue/digital conversion system consisting of a Tascam DV RA1000 HD set to 192000 samples/s and 24 bit resolution. The frequency analysis was carried out with suitable software capable of performing the Fourier transform on a finite number of samples, up to a maximum of over 65000 samples, allowing an analysis with a dynamic range of up to 80 - 90 dB. Conclusions Analysing different phonemes with the described methodology, it was seen that some phonemes extend in the frequency domain for more than three octaves. This leads to reviewing the indication of a phoneme, in the frequency domain, not as a single point, but as a segment. The direct consequence lies in the structure of the SB itself, where each phoneme should be indicated by a horizontal line, resulting in a much greater extension of the SB, along the frequency axis, than is usually indicated.

Lo studio proposto prende come punto di riflessione il banana speech, uno dei metodi utilizzati per la rappresentazione dei fonemi sull’audiogramma che viene descritto come “regione del parlato”. Osservando un qualsiasi grafico rappresentante I BS, si può notare come ciascun suono sia indicato da un singolo punto. Tenendo conto che il BS è un diagramma bidimensionale, dove sull’asse X sono indicate I valori di frequenza e sull’asse Y sono indicate I valori di intensità, un singolo punto sembra indicare che il particolare suono a cui si riferisce sua costituito dalla sola componente frequenziale indicate dalla posizione del punto sull’asse X. In realtà, il punto indicato corrisponde, da un punto di vista frequenziale, al valore di frequenza corrispondente alla sola componente di ampiezza maggiore rispetto a tutte le altre, tra tutte le componenti che, nel loro insieme, realizzano il fonema. Un fonema è ottenuto dalla somma di tante componenti armoniche (teorema di Fourier) in aggiunta alla componente fondamentale di maggior ampiezza. Se il fonema fosse generato solamente dall’unica componente indicata dal corrispondente punto posizionato sul BS, risulterebbe un suo corrispondente ad un tono puro, quindi assolutamente non interpretabile. A questo punto era necessario capire fino a che intensità, al di sotto di quella relative alla componente di maggior ampiezza, sia necessario prendere in considerazioni le diverse formanti che, nel loro insieme, realizzano il fonema. Sono stati fatti dei test su alcuni fonemi e si è visto che prendendo in considerazione le componenti con un’ampiezza fino a -24 dB rispetto alla componente fondamentale, il fonema risulta comprensibile in maniera accettabile (test effettuati su soggetti normoacusici) anche se la sua riproduzione non risulta perfetta. Prendere in considerazione un range delle ampiezza di soli 12 dB, porta ad suono che risulta difficilmente interpretabile, se non per pochi fonemi. L’anali svolta, limitata nel dominio della frequenza, per una serie di fonemi (non tutti quelli mostrati nel BS) è stata effettuata su fonemi prodotti da due soggetti diversi (un maschio e una femmina adulta di nazionalità italiana, con una buona pronuncia, operatori nell’insegnamento a livello di scuola superiore/università), prendendo in considerazione proprio un range di 24 dB tra la componente di ampiezza massima e quella di ampiezza minima. La metodologia utilizzata: I fonemi analizzati sono stati ottenuti da una registrazione con apparecchiature di qualità elevate, utilizzando microfoni professionali da studio, preamplificatori microfonici a bassissimo rumore di fondo con una banda passante di oltre 200 kHz, un sistema di conversione analogico digitale costituito da un registratore Tascam DV RA1000 HD impostato su 192000 campioni/s e 24 bit di risoluzione. L'analisi frequenziale è stata realizzata con adeguato software in grado di effettuare la trasformata di Fourier su un numero finito di campioni, fino ad un massimo di oltre 65000 campioni, consentendo una analisi con una dinamica fino a 80 – 90 dB. CONCLUSIONI Analizzando diversi fonemi, con la metodologia descritta, si è visto come alcuni fonemi si estendano nel dominio della frequenza per oltre tre ottave. Ciò porta a rivedere l’indicazione di un fonema, nel dominio della frequenza, non come un singolo punto, bensì come un segmento. Interpretare un fonema o un suono come un'unica componente frequenziale (che corrisponde ad un tono puro) costituisce un’informazione assolutamente fuorviante. La diretta conseguenza sta nella struttura stessa del BS, dove ciascun fonema andrebbe indicato da una linea orizzontale, con una conseguente estensione del BS, lungo l’asse delle frequenze, molto maggiore di quella indicata di solito.

Analisi accurata nel dominio della frequenza di alcuni fonemi rappresentati nel banana speech

GATTO, MASSIMILIANO
2021/2022

Abstract

Abstract The proposed study takes speech banana, one of the methods used to represent phonemes on the audiogram that is described as a 'speech region', as a point of reflection. Looking at any graph representing the BS, one can see that each sound is indicated by a single point. Bearing in mind that the SB is a two-dimensional diagram, where on the X-axis are indicated the frequency values and on the Y-axis are indicated the intensity values, a single dot seems to indicate that the particular sound to which it refers consists only of the frequency component indicated by the position of the dot on the X-axis. In reality, the point indicated corresponds, from a frequency point of view, to the frequency value corresponding to the single component of greater amplitude than all the others, among all the components that, taken together, make up the phoneme. In reality, a phoneme is obtained from the sum of many harmonic components (Fourier's theorem) in addition to the fundamental component of greatest amplitude. If the phoneme were only generated by the single component indicated by the corresponding dot placed on the SB, the result would be a sound corresponding to a pure tone, therefore absolutely uninterpretable. At this point, it was necessary to understand up to what intensity, below that relating to the component of greatest amplitude, it is necessary to take into consideration the different formants that, as a whole, make up the phoneme. Tests were carried out on a number of phonemes and it was seen that taking into account the components with an amplitude of up to -24 dB relative to the fundamental component, the phoneme is acceptably comprehensible (tests carried out on normoacoustic subjects) even if its reproduction is not perfect. Taking into consideration an amplitude range of only 12 dB leads to a sound that is difficult to interpret, except for a few phonemes. The analysis performed, limited in the frequency domain, for a series of phonemes (not all those shown in the SR) was carried out on phonemes produced by two different subjects (a male and an adult female of Italian nationality, with good pronunciation, working in teaching at high school/university level), taking into consideration precisely a 24 dB range between the maximum amplitude component and the minimum amplitude component. The methodology used The phonemes analysed were obtained from a recording with high quality equipment, using professional studio microphones, microphone preamplifiers with a very low noise floor with a bandwidth of over 200 kHz, an analogue/digital conversion system consisting of a Tascam DV RA1000 HD set to 192000 samples/s and 24 bit resolution. The frequency analysis was carried out with suitable software capable of performing the Fourier transform on a finite number of samples, up to a maximum of over 65000 samples, allowing an analysis with a dynamic range of up to 80 - 90 dB. Conclusions Analysing different phonemes with the described methodology, it was seen that some phonemes extend in the frequency domain for more than three octaves. This leads to reviewing the indication of a phoneme, in the frequency domain, not as a single point, but as a segment. The direct consequence lies in the structure of the SB itself, where each phoneme should be indicated by a horizontal line, resulting in a much greater extension of the SB, along the frequency axis, than is usually indicated.
2021
Accurate analysis in the frequency domain of some phonemes represented in banana speech
Lo studio proposto prende come punto di riflessione il banana speech, uno dei metodi utilizzati per la rappresentazione dei fonemi sull’audiogramma che viene descritto come “regione del parlato”. Osservando un qualsiasi grafico rappresentante I BS, si può notare come ciascun suono sia indicato da un singolo punto. Tenendo conto che il BS è un diagramma bidimensionale, dove sull’asse X sono indicate I valori di frequenza e sull’asse Y sono indicate I valori di intensità, un singolo punto sembra indicare che il particolare suono a cui si riferisce sua costituito dalla sola componente frequenziale indicate dalla posizione del punto sull’asse X. In realtà, il punto indicato corrisponde, da un punto di vista frequenziale, al valore di frequenza corrispondente alla sola componente di ampiezza maggiore rispetto a tutte le altre, tra tutte le componenti che, nel loro insieme, realizzano il fonema. Un fonema è ottenuto dalla somma di tante componenti armoniche (teorema di Fourier) in aggiunta alla componente fondamentale di maggior ampiezza. Se il fonema fosse generato solamente dall’unica componente indicata dal corrispondente punto posizionato sul BS, risulterebbe un suo corrispondente ad un tono puro, quindi assolutamente non interpretabile. A questo punto era necessario capire fino a che intensità, al di sotto di quella relative alla componente di maggior ampiezza, sia necessario prendere in considerazioni le diverse formanti che, nel loro insieme, realizzano il fonema. Sono stati fatti dei test su alcuni fonemi e si è visto che prendendo in considerazione le componenti con un’ampiezza fino a -24 dB rispetto alla componente fondamentale, il fonema risulta comprensibile in maniera accettabile (test effettuati su soggetti normoacusici) anche se la sua riproduzione non risulta perfetta. Prendere in considerazione un range delle ampiezza di soli 12 dB, porta ad suono che risulta difficilmente interpretabile, se non per pochi fonemi. L’anali svolta, limitata nel dominio della frequenza, per una serie di fonemi (non tutti quelli mostrati nel BS) è stata effettuata su fonemi prodotti da due soggetti diversi (un maschio e una femmina adulta di nazionalità italiana, con una buona pronuncia, operatori nell’insegnamento a livello di scuola superiore/università), prendendo in considerazione proprio un range di 24 dB tra la componente di ampiezza massima e quella di ampiezza minima. La metodologia utilizzata: I fonemi analizzati sono stati ottenuti da una registrazione con apparecchiature di qualità elevate, utilizzando microfoni professionali da studio, preamplificatori microfonici a bassissimo rumore di fondo con una banda passante di oltre 200 kHz, un sistema di conversione analogico digitale costituito da un registratore Tascam DV RA1000 HD impostato su 192000 campioni/s e 24 bit di risoluzione. L'analisi frequenziale è stata realizzata con adeguato software in grado di effettuare la trasformata di Fourier su un numero finito di campioni, fino ad un massimo di oltre 65000 campioni, consentendo una analisi con una dinamica fino a 80 – 90 dB. CONCLUSIONI Analizzando diversi fonemi, con la metodologia descritta, si è visto come alcuni fonemi si estendano nel dominio della frequenza per oltre tre ottave. Ciò porta a rivedere l’indicazione di un fonema, nel dominio della frequenza, non come un singolo punto, bensì come un segmento. Interpretare un fonema o un suono come un'unica componente frequenziale (che corrisponde ad un tono puro) costituisce un’informazione assolutamente fuorviante. La diretta conseguenza sta nella struttura stessa del BS, dove ciascun fonema andrebbe indicato da una linea orizzontale, con una conseguente estensione del BS, lungo l’asse delle frequenze, molto maggiore di quella indicata di solito.
banana speech
fonemi
dominio frequenza
File in questo prodotto:
File Dimensione Formato  
Massimiliano Gatto.pdf

accesso aperto

Dimensione 1.49 MB
Formato Adobe PDF
1.49 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/39816