In this study, we focus on a specific case of a generative model derived from the fine-tuning process of Meta's "MusicGen" Transformer model. The goal of the resulting model is to generate music based on the description of a sour, bitter, sweet, or salty taste. We aim to analyze the performance of this new model, on this specific task, in comparison to "MusicGen" which has not undergone fine-tuning. A survey was conducted to compare the two models, in which participants were asked which of two audio samples they preferred based on their relevance to a given description (e.g., salty melody). However, the purpose of this study cannot be achieved by subjective evaluations alone. Therefore, in this paper, we explore an objective approach to evaluate the goodness and differences of results generated by two distinct models using the same input description. To effectively compare the generated results, metrics or "distances" are employed for the analysis. More specifically, we use the Fréchet Audio Distance, the Kullback-Leibler Divergence, and the Contrastive Language-Audio Pretraining (CLAP) score. These metrics are used to analyze the latent representations of the audio samples against reference sets with the likes of MusicCaps and the Taste & Affect Music Database, to understand how fine-tuning affected the base model. The paper further explores what can be learned by comparing the models and what this comparison suggests about the quality of the results.

Nel seguente studio si prende in considerazione un caso particolare di modello generativo, ottenuto a partire dal modello a Trasformatori “MusicGen” di Meta, successivamente ottimizzato tramite un processo di fine-tuning. Il modello risultante ha come obiettivo specifico la generazione di musica basandosi sulla descrizione di un sapore acido, amaro, dolce o salato. Si vuole analizzare su questo compito le prestazioni del nuovo modello a confronto con “MusicGen”, che non ha invece subito il processo di fine-tuning. Per mettere a confronto i due modelli è stato eseguito un sondaggio chiedendo ai partecipanti quale tra due campioni audio preferissero in termini di attinenza con una descrizione (es., melodia salata). Tuttavia, lo scopo di questo studio non può essere raggiunto solamente tramite valutazioni soggettive. Si esplora alternativamente un approccio oggettivo che permetta di valutare la bontà e le differenze di risultati generati da due modelli distinti utilizzando la stessa descrizione in ingresso. Per riuscire in questo confronto, si è fatto uso di metriche o “distanze” per analizzare i risultati generati. In particolare sono utilizzate: la Distanza di Fréchet Audio, la Divergenza di Kullback-Leibler e il punteggio CLAP (Contrastive Language-Audio Pretraining). Esse vengono utilizzate per analizzare le rappresentazioni latenti dei campioni audio rispetto a dataset di riferimento come MusicCaps e il Taste & Affect Music Database, per capire come il processo di fine-tuning ha influenzato il modello base. Questa tesi approfondisce ulteriormente ciò che può essere appreso paragonando i modelli e ciò che questo confronto suggerisce sulla qualità dei risultati.

Metriche per valutare i modelli di Intelligenza Artificiale generativa per la musica

BERTINI, DAVIDE
2024/2025

Abstract

In this study, we focus on a specific case of a generative model derived from the fine-tuning process of Meta's "MusicGen" Transformer model. The goal of the resulting model is to generate music based on the description of a sour, bitter, sweet, or salty taste. We aim to analyze the performance of this new model, on this specific task, in comparison to "MusicGen" which has not undergone fine-tuning. A survey was conducted to compare the two models, in which participants were asked which of two audio samples they preferred based on their relevance to a given description (e.g., salty melody). However, the purpose of this study cannot be achieved by subjective evaluations alone. Therefore, in this paper, we explore an objective approach to evaluate the goodness and differences of results generated by two distinct models using the same input description. To effectively compare the generated results, metrics or "distances" are employed for the analysis. More specifically, we use the Fréchet Audio Distance, the Kullback-Leibler Divergence, and the Contrastive Language-Audio Pretraining (CLAP) score. These metrics are used to analyze the latent representations of the audio samples against reference sets with the likes of MusicCaps and the Taste & Affect Music Database, to understand how fine-tuning affected the base model. The paper further explores what can be learned by comparing the models and what this comparison suggests about the quality of the results.
2024
Metrics for evaluation of generative Artificial Intelligence models for music
Nel seguente studio si prende in considerazione un caso particolare di modello generativo, ottenuto a partire dal modello a Trasformatori “MusicGen” di Meta, successivamente ottimizzato tramite un processo di fine-tuning. Il modello risultante ha come obiettivo specifico la generazione di musica basandosi sulla descrizione di un sapore acido, amaro, dolce o salato. Si vuole analizzare su questo compito le prestazioni del nuovo modello a confronto con “MusicGen”, che non ha invece subito il processo di fine-tuning. Per mettere a confronto i due modelli è stato eseguito un sondaggio chiedendo ai partecipanti quale tra due campioni audio preferissero in termini di attinenza con una descrizione (es., melodia salata). Tuttavia, lo scopo di questo studio non può essere raggiunto solamente tramite valutazioni soggettive. Si esplora alternativamente un approccio oggettivo che permetta di valutare la bontà e le differenze di risultati generati da due modelli distinti utilizzando la stessa descrizione in ingresso. Per riuscire in questo confronto, si è fatto uso di metriche o “distanze” per analizzare i risultati generati. In particolare sono utilizzate: la Distanza di Fréchet Audio, la Divergenza di Kullback-Leibler e il punteggio CLAP (Contrastive Language-Audio Pretraining). Esse vengono utilizzate per analizzare le rappresentazioni latenti dei campioni audio rispetto a dataset di riferimento come MusicCaps e il Taste & Affect Music Database, per capire come il processo di fine-tuning ha influenzato il modello base. Questa tesi approfondisce ulteriormente ciò che può essere appreso paragonando i modelli e ciò che questo confronto suggerisce sulla qualità dei risultati.
IA
Musica
Modelli generativi
Distance Metrics
File in questo prodotto:
File Dimensione Formato  
BERTINI_DAVIDE.pdf

accesso aperto

Dimensione 440.55 kB
Formato Adobe PDF
440.55 kB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/82694