Negli ultimi due anni i modelli di diffusione sono stati presi in esame per la loro capacità di modellare distribuzioni di dati complesse, mostrando risultati promettenti in compiti di inpainting, generazione di immagini, super-resolution, denoising di immagini e instance segmentation. Oltre a questo i modelli di diffusione si sono dimostrati efficaci anche nella sintesi vocale, nel miglioramento dell'audio e nella generazione di audio. L’obiettivo di questa tesi sarà, appunto, la valutazione di quest'ultimo compito. Lo studio analizza e confronta diversi modelli di diffusione basati su spettrogrammi per la sintesi di audio di alta qualità, concentrandosi sulla generazione di musica ed effetti sonori. Questo lavoro inizia con una panoramica completa dei modelli di diffusione, spiegando i vari componenti e l'architettura coinvolti nella loro implementazione. Quindi, esamina il processo di trasformazione delle forme d'onda audio in spettrogrammi e la successiva modellazione della loro distribuzione utilizzando approcci basati sulla diffusione. Successivamente vengono illustrati quattro modelli di diffusione basati su spettrogrammi descrivendo le loro differenze e i dataset usati, e come questi incidono sugli audio da loro generati. Inoltre, la tesi presenta una stima della qualità dei campioni audio generati basata su un sondaggio. Ai partecipanti viene presentata una serie di campioni audio generati che comprendono brani musicali ed effetti sonori e viene chiesto loro di valutare vari attributi come la chiarezza del suono, la fedeltà al prompt testuale e il realismo utilizzando una scala Likert a cinque punti. I risultati del sondaggio forniscono indicazioni preziose sui punti di forza e sui limiti dei modelli di diffusione per la sintesi audio, facendo luce sulle aree da migliorare e perfezionare.
Analisi e valutazione di modelli diffusion basati su spettrogrammi per la generazione di musica ed effetti sonori
BULMAGA, DANIELA
2023/2024
Abstract
Negli ultimi due anni i modelli di diffusione sono stati presi in esame per la loro capacità di modellare distribuzioni di dati complesse, mostrando risultati promettenti in compiti di inpainting, generazione di immagini, super-resolution, denoising di immagini e instance segmentation. Oltre a questo i modelli di diffusione si sono dimostrati efficaci anche nella sintesi vocale, nel miglioramento dell'audio e nella generazione di audio. L’obiettivo di questa tesi sarà, appunto, la valutazione di quest'ultimo compito. Lo studio analizza e confronta diversi modelli di diffusione basati su spettrogrammi per la sintesi di audio di alta qualità, concentrandosi sulla generazione di musica ed effetti sonori. Questo lavoro inizia con una panoramica completa dei modelli di diffusione, spiegando i vari componenti e l'architettura coinvolti nella loro implementazione. Quindi, esamina il processo di trasformazione delle forme d'onda audio in spettrogrammi e la successiva modellazione della loro distribuzione utilizzando approcci basati sulla diffusione. Successivamente vengono illustrati quattro modelli di diffusione basati su spettrogrammi descrivendo le loro differenze e i dataset usati, e come questi incidono sugli audio da loro generati. Inoltre, la tesi presenta una stima della qualità dei campioni audio generati basata su un sondaggio. Ai partecipanti viene presentata una serie di campioni audio generati che comprendono brani musicali ed effetti sonori e viene chiesto loro di valutare vari attributi come la chiarezza del suono, la fedeltà al prompt testuale e il realismo utilizzando una scala Likert a cinque punti. I risultati del sondaggio forniscono indicazioni preziose sui punti di forza e sui limiti dei modelli di diffusione per la sintesi audio, facendo luce sulle aree da migliorare e perfezionare.File | Dimensione | Formato | |
---|---|---|---|
Bulmaga_Daniela.pdf
accesso aperto
Dimensione
2.13 MB
Formato
Adobe PDF
|
2.13 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/67355