Benchmarking Personalization Capabilities in Embodied AI Agents

Embodied vision-and-language research increasingly studies open-vocabulary goals in photo- realistic indoor simulators, where agents must perceive and act in mapped 3D environments. Most embodied benchmarks nevertheless focus on category-level or otherwise generic object tar- gets, leaving personalized object grounding (POG), the ability to localize a specific object asso- ciated with a particular person or narrative context, largely under-explored. Moreover, current embodied datasets differ substantially in simulator design, query formulation, output represen- tation (two-dimensional maps versus three-dimensional coordinates), and evaluation criteria, making fair comparison across approaches difficult. To address this gap, this thesis introduces EAI-Pers, a dataset built around the Person–Object Query Grounding (POQG) task. EAI- Pers is built in Habitat from HM3D validation scenes and contains episodes with narrative context and queries such as “Where is [person]’s [object]?”. Models must ground the query by predicting either a cell on a top-down semantic map or a 3D point, under a unified evaluation setup with shared success thresholds. Experiments on EAI-Pers compare simple baselines, vision-language retrieval methods, LLM- assisted parsing pipelines, and structured room-aware strategies. Results show that direct query- to-map matching is limited, especially on harder cases, while structured owner–object–room reasoning gives clear gains. On the Total split at 3 m, LLM-assisted parsing reaches approxi- mately 48% success versus approximately 19% for VLFM, and Room Then Object reaches ap- proximately 52%. In the 3D block, standard ZSVG3D reaches approximately 54% on Total at 3 m, while the OpenScene-style no-anchor variant reaches approximately 69%. Overall, the thesis provides a clear evaluation setting for personalized embodied grounding and supports more consistent comparison across methods.

La ricerca su vision-and-language in ambito embodied studia sempre più spesso obiettivi a vocabolario aperto in simulatori indoor fotorealistici, in cui gli agenti devono percepire e agire in ambienti 3D già mappati. Tuttavia, la maggior parte dei benchmark embodied continua a concentrarsi su target a livello di categoria o comunque generici, lasciando ancora poco esplorato il personalized object grounding (POG), cioè la capacità di localizzare uno specifico oggetto associato a una determinata persona o a un particolare contesto narrativo. Inoltre, i dataset embodied attualmente disponibili differiscono notevolmente per progettazione del simulatore, formulazione delle query, rappresentazione dell’output (mappe bidimensionali contro coordinate tridimensionali) e criteri di valutazione, rendendo difficile un confronto equo tra approcci diversi. Per colmare questa lacuna, questa tesi introduce EAI-Pers, un dataset costruito attorno al task di Person-Object Query Grounding (POQG). EAI-Pers è stato realizzato in Habitat a partire dalle scene di validazione di HM3D e contiene episodi con contesto narrativo e query del tipo “Dov’è il/la [oggetto] di [persona]?”. I modelli devono risolvere la query predicendo o una cella su una mappa semantica top-down oppure un punto 3D, all’interno di un protocollo di valutazione unificato con soglie di successo condivise. Gli esperimenti su EAI-Pers confrontano baseline semplici, metodi di retrieval vision-language, pipeline di parsing assistite da LLM e strategie strutturate consapevoli della stanza. I risultati mostrano che il matching diretto tra query e mappa è limitato, soprattutto nei casi più difficili, mentre un ragionamento strutturato basato su proprietario-oggetto-stanza porta miglioramenti evidenti. Nello split Total a 3 m, il parsing assistito da LLM raggiunge circa il 48% di successo contro circa il 19% di VLFM, mentre Room Then Object raggiunge circa il 52%. Nel blocco 3D, la versione standard di ZSVG3D raggiunge circa il 54% su Total a 3 m, mentre la variante in stile OpenScene senza anchor raggiunge circa il 69%. Nel complesso, la tesi fornisce un chiaro contesto di valutazione per il personalized embodied grounding e favorisce un confronto più coerente tra i diversi metodi.