L’allineamento audio è sempre stato un argomento di grande interesse nell’ambiente del Music Information Retrieval (MIR); infatti, la possibilità di allineare diverse sorgenti audio, o un estratto musicale con il relativo spartito, offrono applicazioni di notevole importanza. Alcuni esempi sono: sistemi di accompagnamento automatico in tempo reale, confronto di esecuzioni diverse dello stesso brano e identificazione automatica della musica. In questa tesi, si studierà un’applicazione pratica dell’allineamento che sfrutta la programmazione dinamica, in particolare il Dynamic Time Warping (DTW). L’idea di base è quella di creare un software che sia in grado di allineare l’audio di un film con un file di riferimento, allo scopo di mostrare sullo schermo i sottotitoli relativi al film in modo sincrono o veicolare contenuti alternativi (audio originale, commenti dei registi). La destinazione finale di questo software saranno i dispositivi mobili, ma ai fini di questa tesi ci si limiterà ad una versione per dispositivi fissi (desktop computer e computer portatili). In una prima fase, il sistema sarà implementato nel modo più semplice: si utilizzerà la versione standard del DTW ed il segnale audio sarà rappresentato attraverso il modulo della Discrete Fourier Transform (DFT), che è una rappresentazione completa ma onerosa dal punto di vista della occupazione di memoria. Successivamente, si tenterà di migliorarne le prestazioni, sia in termini di velocità che di efficienza, apportando alcune modifiche all’algoritmo del DTW e alla rappresentazione del segnale audio. Infine saranno presentati alcuni dati sull’affidabilità e usabilità del sistema, ottenuti attraverso un processo di sperimentazione sistematica. Per concludere poi, verranno forniti alcuni spunti per proseguire questo progetto

Sistema di allineamento audio in tempo reale basato su Dynamic Time Warping

Guariento, Enrico
2011/2012

Abstract

L’allineamento audio è sempre stato un argomento di grande interesse nell’ambiente del Music Information Retrieval (MIR); infatti, la possibilità di allineare diverse sorgenti audio, o un estratto musicale con il relativo spartito, offrono applicazioni di notevole importanza. Alcuni esempi sono: sistemi di accompagnamento automatico in tempo reale, confronto di esecuzioni diverse dello stesso brano e identificazione automatica della musica. In questa tesi, si studierà un’applicazione pratica dell’allineamento che sfrutta la programmazione dinamica, in particolare il Dynamic Time Warping (DTW). L’idea di base è quella di creare un software che sia in grado di allineare l’audio di un film con un file di riferimento, allo scopo di mostrare sullo schermo i sottotitoli relativi al film in modo sincrono o veicolare contenuti alternativi (audio originale, commenti dei registi). La destinazione finale di questo software saranno i dispositivi mobili, ma ai fini di questa tesi ci si limiterà ad una versione per dispositivi fissi (desktop computer e computer portatili). In una prima fase, il sistema sarà implementato nel modo più semplice: si utilizzerà la versione standard del DTW ed il segnale audio sarà rappresentato attraverso il modulo della Discrete Fourier Transform (DFT), che è una rappresentazione completa ma onerosa dal punto di vista della occupazione di memoria. Successivamente, si tenterà di migliorarne le prestazioni, sia in termini di velocità che di efficienza, apportando alcune modifiche all’algoritmo del DTW e alla rappresentazione del segnale audio. Infine saranno presentati alcuni dati sull’affidabilità e usabilità del sistema, ottenuti attraverso un processo di sperimentazione sistematica. Per concludere poi, verranno forniti alcuni spunti per proseguire questo progetto
2011-12-05
77
allineamento audio, tempo reale, dynamic time warping
File in questo prodotto:
File Dimensione Formato  
Tesi_Enrico_Guariento.pdf

accesso aperto

Dimensione 7.5 MB
Formato Adobe PDF
7.5 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/15348