Negli ultimi due anni i modelli di diffusione sono stati presi in esame per la loro capacità di modellare distribuzioni di dati complesse, mostrando risultati promettenti in compiti di inpainting, generazione di immagini, super-resolution, denoising di immagini e instance segmentation. Oltre a questo i modelli di diffusione si sono dimostrati efficaci anche nella sintesi vocale, nel miglioramento dell'audio e nella generazione di audio. L’obiettivo di questa tesi sarà, appunto, la valutazione di quest'ultimo compito. Lo studio analizza e confronta diversi modelli di diffusione basati su spettrogrammi per la sintesi di audio di alta qualità, concentrandosi sulla generazione di musica ed effetti sonori. Questo lavoro inizia con una panoramica completa dei modelli di diffusione, spiegando i vari componenti e l'architettura coinvolti nella loro implementazione. Quindi, esamina il processo di trasformazione delle forme d'onda audio in spettrogrammi e la successiva modellazione della loro distribuzione utilizzando approcci basati sulla diffusione. Successivamente vengono illustrati quattro modelli di diffusione basati su spettrogrammi descrivendo le loro differenze e i dataset usati, e come questi incidono sugli audio da loro generati. Inoltre, la tesi presenta una stima della qualità dei campioni audio generati basata su un sondaggio. Ai partecipanti viene presentata una serie di campioni audio generati che comprendono brani musicali ed effetti sonori e viene chiesto loro di valutare vari attributi come la chiarezza del suono, la fedeltà al prompt testuale e il realismo utilizzando una scala Likert a cinque punti. I risultati del sondaggio forniscono indicazioni preziose sui punti di forza e sui limiti dei modelli di diffusione per la sintesi audio, facendo luce sulle aree da migliorare e perfezionare.

Analisi e valutazione di modelli diffusion basati su spettrogrammi per la generazione di musica ed effetti sonori

BULMAGA, DANIELA
2023/2024

Abstract

Negli ultimi due anni i modelli di diffusione sono stati presi in esame per la loro capacità di modellare distribuzioni di dati complesse, mostrando risultati promettenti in compiti di inpainting, generazione di immagini, super-resolution, denoising di immagini e instance segmentation. Oltre a questo i modelli di diffusione si sono dimostrati efficaci anche nella sintesi vocale, nel miglioramento dell'audio e nella generazione di audio. L’obiettivo di questa tesi sarà, appunto, la valutazione di quest'ultimo compito. Lo studio analizza e confronta diversi modelli di diffusione basati su spettrogrammi per la sintesi di audio di alta qualità, concentrandosi sulla generazione di musica ed effetti sonori. Questo lavoro inizia con una panoramica completa dei modelli di diffusione, spiegando i vari componenti e l'architettura coinvolti nella loro implementazione. Quindi, esamina il processo di trasformazione delle forme d'onda audio in spettrogrammi e la successiva modellazione della loro distribuzione utilizzando approcci basati sulla diffusione. Successivamente vengono illustrati quattro modelli di diffusione basati su spettrogrammi descrivendo le loro differenze e i dataset usati, e come questi incidono sugli audio da loro generati. Inoltre, la tesi presenta una stima della qualità dei campioni audio generati basata su un sondaggio. Ai partecipanti viene presentata una serie di campioni audio generati che comprendono brani musicali ed effetti sonori e viene chiesto loro di valutare vari attributi come la chiarezza del suono, la fedeltà al prompt testuale e il realismo utilizzando una scala Likert a cinque punti. I risultati del sondaggio forniscono indicazioni preziose sui punti di forza e sui limiti dei modelli di diffusione per la sintesi audio, facendo luce sulle aree da migliorare e perfezionare.
2023
Analysis and evaluation of spectrogram-based diffusion models for music and sound effects generation
Machine Learning
Reti neurali
Audio Generation
Diffusion Models
Generative Models
File in questo prodotto:
File Dimensione Formato  
Bulmaga_Daniela.pdf

accesso aperto

Dimensione 2.13 MB
Formato Adobe PDF
2.13 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/67355