Recent advances in vision and language models have led to significant improvements across a wide range of applications, substantially transforming human–machine interaction. Despite these achievements, current models continue to face limitations in the domain of personalization, particularly when required to generate outputs grounded in user-specific concepts. This work investigates the problem of personalization in vision and language models, with a specific emphasis on evaluating model behaviour in scenarios where multiple user-defined concepts are simultaneously present within a single image. To this end, a novel dataset, MP-Bench, is introduced, designed to support evaluation in both single- and multi-concept personalization settings. The dataset is constructed using personalized generative models, demonstrating a scalable and flexible approach to dataset creation in this context. Furthermore, an extensive evaluation of existing models is conducted on both the proposed dataset and publicly available benchmarks, providing a comprehensive analysis of current performance in the personalization task.

I recenti progressi nei modelli di visione e linguaggio hanno portato a miglioramenti significativi in una vasta gamma di applicazioni, trasformando sostanzialmente l'interazione uomo-macchina. Nonostante questi successi, i modelli attuali continuano a presentare delle limitazioni nel dominio della personalizzazione, in particolare quando è richiesto di generare output basati su concetti specifici dell'utente. Questo lavoro esplora il problema della personalizzazione nei modelli di visione e linguaggio, con un'enfasi particolare sulla valutazione del comportamento del modello in scenari in cui più concetti definiti dall'utente sono presenti simultaneamente in un'unica immagine. A tal fine, viene introdotto un nuovo dataset, MP-Bench, progettato per supportare la valutazione in contesti di personalizzazione sia a concetto singolo che multiplo. Il dataset è costruito utilizzando modelli generativi personalizzati, dimostrando un approccio scalabile e flessibile alla creazione di dataset in questo contesto. Inoltre, viene condotta un'ampia valutazione dei modelli esistenti sia sul dataset proposto che su benchmark pubblicamente disponibili, fornendo un'analisi completa delle prestazioni attuali nel compito di personalizzazione.

Personalization of Vision-language Models and the Multi-Concept Challenge

ISOTTON, GLORIA
2024/2025

Abstract

Recent advances in vision and language models have led to significant improvements across a wide range of applications, substantially transforming human–machine interaction. Despite these achievements, current models continue to face limitations in the domain of personalization, particularly when required to generate outputs grounded in user-specific concepts. This work investigates the problem of personalization in vision and language models, with a specific emphasis on evaluating model behaviour in scenarios where multiple user-defined concepts are simultaneously present within a single image. To this end, a novel dataset, MP-Bench, is introduced, designed to support evaluation in both single- and multi-concept personalization settings. The dataset is constructed using personalized generative models, demonstrating a scalable and flexible approach to dataset creation in this context. Furthermore, an extensive evaluation of existing models is conducted on both the proposed dataset and publicly available benchmarks, providing a comprehensive analysis of current performance in the personalization task.
2024
Personalization of Vision-language Models and the Multi-Concept Challenge
I recenti progressi nei modelli di visione e linguaggio hanno portato a miglioramenti significativi in una vasta gamma di applicazioni, trasformando sostanzialmente l'interazione uomo-macchina. Nonostante questi successi, i modelli attuali continuano a presentare delle limitazioni nel dominio della personalizzazione, in particolare quando è richiesto di generare output basati su concetti specifici dell'utente. Questo lavoro esplora il problema della personalizzazione nei modelli di visione e linguaggio, con un'enfasi particolare sulla valutazione del comportamento del modello in scenari in cui più concetti definiti dall'utente sono presenti simultaneamente in un'unica immagine. A tal fine, viene introdotto un nuovo dataset, MP-Bench, progettato per supportare la valutazione in contesti di personalizzazione sia a concetto singolo che multiplo. Il dataset è costruito utilizzando modelli generativi personalizzati, dimostrando un approccio scalabile e flessibile alla creazione di dataset in questo contesto. Inoltre, viene condotta un'ampia valutazione dei modelli esistenti sia sul dataset proposto che su benchmark pubblicamente disponibili, fornendo un'analisi completa delle prestazioni attuali nel compito di personalizzazione.
Personalization
VLMs
Computer vision
Training
Multi-concepts
File in questo prodotto:
File Dimensione Formato  
Isotton_Gloria.pdf

accesso aperto

Dimensione 27.43 MB
Formato Adobe PDF
27.43 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/87173