La realtà virtuale e aumentata sta rivoluzionando il modo in cui interagiamo con il mondo naturale e digitale, offrendo esperienze sempre più immersive e coinvolgenti. Un elemento fondamentale per garantire un’esperienza realistica e plausibile, attraverso queste tecnologie, è l’elaborazione delle informazioni uditive, che permette di percepire il suono virtuale provenire da fonti posizionate in modo accurato nello spazio tridimensionale. Questo è reso possibile grazie al rendering binaurale e all’utilizzo delle Head-Related Transfer Function, che catturano le caratteristiche acustiche e psicoacustiche individuali di un soggetto per la simulazione realistica di spazi acustici virtuali. Tuttavia, l’acquisizione di Head-Related Transfer Function personalizzate, è un processo complesso e dispendioso che richiede strumentazione specializzata e molto tempo. Con l’avanzamento tecnologico delle reti neurali, che hanno già dimostrato di essere efficaci nel campo dell’audio, si delineano una serie di nuove possibilità per rendere le tecnologie per l’audio spazializzato accessibili a tutti. In particolare, le Physics-Informed Neural Network rappresentano un’innovativa categoria di queste reti. Esse consentono di implementare, in un modello neurale, vincoli fisici essenziali che permettono un addestramento efficace anche a fronte di dataset ridotti. L’obiettivo di questo lavoro di tesi è l’esplorazione delle Physics-Informed Neural Network per l’upsampling spaziale di Head-Related Transfer Function, al fine di semplificarne notevolmente l’acquisizione a favore di un processo più accessibile e rapido, rendendo sufficienti una frazione delle misurazioni attualmente necessarie. Al momento della stesura di questo lavoro, si è progettato e collaudato un modello neurale basato su una architettura ad autoencoder. Esso ha portato a buoni risultati, con una distorsione media spettrale di 4.81 dB nella personalizzazione delle Head-Related Transfer Function, in linea con i valori medi della letteratura. Le attività di perfezionamento della prima architettura hanno portato all’implementazione di nuove proposte.
Upsampling Spaziale di Head-Related Transfer Function tramite Physics-Informed Neural Network
ZANONI, EMANUELE
2023/2024
Abstract
La realtà virtuale e aumentata sta rivoluzionando il modo in cui interagiamo con il mondo naturale e digitale, offrendo esperienze sempre più immersive e coinvolgenti. Un elemento fondamentale per garantire un’esperienza realistica e plausibile, attraverso queste tecnologie, è l’elaborazione delle informazioni uditive, che permette di percepire il suono virtuale provenire da fonti posizionate in modo accurato nello spazio tridimensionale. Questo è reso possibile grazie al rendering binaurale e all’utilizzo delle Head-Related Transfer Function, che catturano le caratteristiche acustiche e psicoacustiche individuali di un soggetto per la simulazione realistica di spazi acustici virtuali. Tuttavia, l’acquisizione di Head-Related Transfer Function personalizzate, è un processo complesso e dispendioso che richiede strumentazione specializzata e molto tempo. Con l’avanzamento tecnologico delle reti neurali, che hanno già dimostrato di essere efficaci nel campo dell’audio, si delineano una serie di nuove possibilità per rendere le tecnologie per l’audio spazializzato accessibili a tutti. In particolare, le Physics-Informed Neural Network rappresentano un’innovativa categoria di queste reti. Esse consentono di implementare, in un modello neurale, vincoli fisici essenziali che permettono un addestramento efficace anche a fronte di dataset ridotti. L’obiettivo di questo lavoro di tesi è l’esplorazione delle Physics-Informed Neural Network per l’upsampling spaziale di Head-Related Transfer Function, al fine di semplificarne notevolmente l’acquisizione a favore di un processo più accessibile e rapido, rendendo sufficienti una frazione delle misurazioni attualmente necessarie. Al momento della stesura di questo lavoro, si è progettato e collaudato un modello neurale basato su una architettura ad autoencoder. Esso ha portato a buoni risultati, con una distorsione media spettrale di 4.81 dB nella personalizzazione delle Head-Related Transfer Function, in linea con i valori medi della letteratura. Le attività di perfezionamento della prima architettura hanno portato all’implementazione di nuove proposte.File | Dimensione | Formato | |
---|---|---|---|
Upsampling Spaziale di HRTF tramite PINN.pdf
accesso aperto
Dimensione
4.24 MB
Formato
Adobe PDF
|
4.24 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/64972