Analisi e valutazione di modelli diffusion basati su spettrogrammi per la generazione di musica ed effetti sonori

Negli ultimi due anni i modelli di diffusione sono stati presi in esame per la loro capacità di modellare distribuzioni di dati complesse, mostrando risultati promettenti in compiti di inpainting, generazione di immagini, super-resolution, denoising di immagini e instance segmentation. Oltre a questo i modelli di diffusione si sono dimostrati efficaci anche nella sintesi vocale, nel miglioramento dell'audio e nella generazione di audio. L’obiettivo di questa tesi sarà, appunto, la valutazione di quest'ultimo compito. Lo studio analizza e confronta diversi modelli di diffusione basati su spettrogrammi per la sintesi di audio di alta qualità, concentrandosi sulla generazione di musica ed effetti sonori. Questo lavoro inizia con una panoramica completa dei modelli di diffusione, spiegando i vari componenti e l'architettura coinvolti nella loro implementazione. Quindi, esamina il processo di trasformazione delle forme d'onda audio in spettrogrammi e la successiva modellazione della loro distribuzione utilizzando approcci basati sulla diffusione. Successivamente vengono illustrati quattro modelli di diffusione basati su spettrogrammi descrivendo le loro differenze e i dataset usati, e come questi incidono sugli audio da loro generati. Inoltre, la tesi presenta una stima della qualità dei campioni audio generati basata su un sondaggio. Ai partecipanti viene presentata una serie di campioni audio generati che comprendono brani musicali ed effetti sonori e viene chiesto loro di valutare vari attributi come la chiarezza del suono, la fedeltà al prompt testuale e il realismo utilizzando una scala Likert a cinque punti. I risultati del sondaggio forniscono indicazioni preziose sui punti di forza e sui limiti dei modelli di diffusione per la sintesi audio, facendo luce sulle aree da migliorare e perfezionare.

Analisi e valutazione di modelli diffusion basati su spettrogrammi per la generazione di musica ed effetti sonori

BULMAGA, DANIELA

2023/2024

Abstract

Negli ultimi due anni i modelli di diffusione sono stati presi in esame per la loro capacità di modellare distribuzioni di dati complesse, mostrando risultati promettenti in compiti di inpainting, generazione di immagini, super-resolution, denoising di immagini e instance segmentation. Oltre a questo i modelli di diffusione si sono dimostrati efficaci anche nella sintesi vocale, nel miglioramento dell'audio e nella generazione di audio. L’obiettivo di questa tesi sarà, appunto, la valutazione di quest'ultimo compito. Lo studio analizza e confronta diversi modelli di diffusione basati su spettrogrammi per la sintesi di audio di alta qualità, concentrandosi sulla generazione di musica ed effetti sonori. Questo lavoro inizia con una panoramica completa dei modelli di diffusione, spiegando i vari componenti e l'architettura coinvolti nella loro implementazione. Quindi, esamina il processo di trasformazione delle forme d'onda audio in spettrogrammi e la successiva modellazione della loro distribuzione utilizzando approcci basati sulla diffusione. Successivamente vengono illustrati quattro modelli di diffusione basati su spettrogrammi descrivendo le loro differenze e i dataset usati, e come questi incidono sugli audio da loro generati. Inoltre, la tesi presenta una stima della qualità dei campioni audio generati basata su un sondaggio. Ai partecipanti viene presentata una serie di campioni audio generati che comprendono brani musicali ed effetti sonori e viene chiesto loro di valutare vari attributi come la chiarezza del suono, la fedeltà al prompt testuale e il realismo utilizzando una scala Likert a cinque punti. I risultati del sondaggio forniscono indicazioni preziose sui punti di forza e sui limiti dei modelli di diffusione per la sintesi audio, facendo luce sulle aree da migliorare e perfezionare.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Dipartimento di Ingegneria dell'Informazione - DEI
			
	Corso di studio
	
				INGEGNERIA INFORMATICA Laurea di Primo Livello (D.M. 270/2004)
			
	Anno Accademico
	
				2023
			
	Titolo inglese
	
				Analysis and evaluation of spectrogram-based diffusion models for music and sound effects generation
			
	Parola chiave
	
				Machine Learning
Reti neurali
Audio Generation
Diffusion Models
Generative Models
			
	Relatore
	
				RODA', ANTONIO
			
	Appare nelle tipologie:
	
				Lauree triennali

File in questo prodotto:

File	Dimensione	Formato
Bulmaga_Daniela.pdf accesso aperto Dimensione 2.13 MB Formato Adobe PDF Visualizza/Apri	2.13 MB	Adobe PDF	Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/67355