La realtà virtuale e aumentata sta rivoluzionando il modo in cui interagiamo con il mondo naturale e digitale, offrendo esperienze sempre più immersive e coinvolgenti. Un elemento fondamentale per garantire un’esperienza realistica e plausibile, attraverso queste tecnologie, è l’elaborazione delle informazioni uditive, che permette di percepire il suono virtuale provenire da fonti posizionate in modo accurato nello spazio tridimensionale. Questo è reso possibile grazie al rendering binaurale e all’utilizzo delle Head-Related Transfer Function, che catturano le caratteristiche acustiche e psicoacustiche individuali di un soggetto per la simulazione realistica di spazi acustici virtuali. Tuttavia, l’acquisizione di Head-Related Transfer Function personalizzate, è un processo complesso e dispendioso che richiede strumentazione specializzata e molto tempo. Con l’avanzamento tecnologico delle reti neurali, che hanno già dimostrato di essere efficaci nel campo dell’audio, si delineano una serie di nuove possibilità per rendere le tecnologie per l’audio spazializzato accessibili a tutti. In particolare, le Physics-Informed Neural Network rappresentano un’innovativa categoria di queste reti. Esse consentono di implementare, in un modello neurale, vincoli fisici essenziali che permettono un addestramento efficace anche a fronte di dataset ridotti. L’obiettivo di questo lavoro di tesi è l’esplorazione delle Physics-Informed Neural Network per l’upsampling spaziale di Head-Related Transfer Function, al fine di semplificarne notevolmente l’acquisizione a favore di un processo più accessibile e rapido, rendendo sufficienti una frazione delle misurazioni attualmente necessarie. Al momento della stesura di questo lavoro, si è progettato e collaudato un modello neurale basato su una architettura ad autoencoder. Esso ha portato a buoni risultati, con una distorsione media spettrale di 4.81 dB nella personalizzazione delle Head-Related Transfer Function, in linea con i valori medi della letteratura. Le attività di perfezionamento della prima architettura hanno portato all’implementazione di nuove proposte.

Upsampling Spaziale di Head-Related Transfer Function tramite Physics-Informed Neural Network

ZANONI, EMANUELE
2023/2024

Abstract

La realtà virtuale e aumentata sta rivoluzionando il modo in cui interagiamo con il mondo naturale e digitale, offrendo esperienze sempre più immersive e coinvolgenti. Un elemento fondamentale per garantire un’esperienza realistica e plausibile, attraverso queste tecnologie, è l’elaborazione delle informazioni uditive, che permette di percepire il suono virtuale provenire da fonti posizionate in modo accurato nello spazio tridimensionale. Questo è reso possibile grazie al rendering binaurale e all’utilizzo delle Head-Related Transfer Function, che catturano le caratteristiche acustiche e psicoacustiche individuali di un soggetto per la simulazione realistica di spazi acustici virtuali. Tuttavia, l’acquisizione di Head-Related Transfer Function personalizzate, è un processo complesso e dispendioso che richiede strumentazione specializzata e molto tempo. Con l’avanzamento tecnologico delle reti neurali, che hanno già dimostrato di essere efficaci nel campo dell’audio, si delineano una serie di nuove possibilità per rendere le tecnologie per l’audio spazializzato accessibili a tutti. In particolare, le Physics-Informed Neural Network rappresentano un’innovativa categoria di queste reti. Esse consentono di implementare, in un modello neurale, vincoli fisici essenziali che permettono un addestramento efficace anche a fronte di dataset ridotti. L’obiettivo di questo lavoro di tesi è l’esplorazione delle Physics-Informed Neural Network per l’upsampling spaziale di Head-Related Transfer Function, al fine di semplificarne notevolmente l’acquisizione a favore di un processo più accessibile e rapido, rendendo sufficienti una frazione delle misurazioni attualmente necessarie. Al momento della stesura di questo lavoro, si è progettato e collaudato un modello neurale basato su una architettura ad autoencoder. Esso ha portato a buoni risultati, con una distorsione media spettrale di 4.81 dB nella personalizzazione delle Head-Related Transfer Function, in linea con i valori medi della letteratura. Le attività di perfezionamento della prima architettura hanno portato all’implementazione di nuove proposte.
2023
Spatial Upsampling of Head-Related Transfer Functions via Physics-Informed Neural Networks
HRTF
PINN
Neural Networks
Deep Learning
Acoustics
File in questo prodotto:
File Dimensione Formato  
Upsampling Spaziale di HRTF tramite PINN.pdf

accesso aperto

Dimensione 4.24 MB
Formato Adobe PDF
4.24 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/64972