Traditional NeRF models are highly effective for novel view synthesis but are constrained by their reliance on RGB inputs and the need for single-scene training, limiting their generalization. This research addresses these limitations by incorporating multimodal imaging into NeRF using the Factor Fields framework, which enables more structured and interpretable scene representations. The goal is to develop a generalized NeRF that can adapt to new scenes without pretraining from scratch. To support this, the model is pretrained across diverse datasets to learn transferable priors, improving generalization and efficiency.

I modelli NeRF tradizionali sono altamente efficaci nella sintesi di nuove viste, ma sono limitati dalla loro dipendenza dagli input RGB e dalla necessità di addestramento su una singola scena, il che ne limita la capacità di generalizzazione. Questa ricerca affronta tali limitazioni integrando l’imaging multimodale nel NeRF utilizzando il framework Factor Fields, che consente rappresentazioni della scena più strutturate e interpretabili. L’obiettivo è sviluppare un NeRF generalizzato in grado di adattarsi a nuove scene senza dover essere riaddestrato da zero. A supporto di ciò, il modello viene pre-addestrato su dataset diversificati per apprendere conoscenze trasferibili, migliorando la generalizzazione e l’efficienza.

Multimodal Dictionary Fields

SCAPINELLO, MICHELE
2024/2025

Abstract

Traditional NeRF models are highly effective for novel view synthesis but are constrained by their reliance on RGB inputs and the need for single-scene training, limiting their generalization. This research addresses these limitations by incorporating multimodal imaging into NeRF using the Factor Fields framework, which enables more structured and interpretable scene representations. The goal is to develop a generalized NeRF that can adapt to new scenes without pretraining from scratch. To support this, the model is pretrained across diverse datasets to learn transferable priors, improving generalization and efficiency.
2024
Multimodal Dictionary Fields
I modelli NeRF tradizionali sono altamente efficaci nella sintesi di nuove viste, ma sono limitati dalla loro dipendenza dagli input RGB e dalla necessità di addestramento su una singola scena, il che ne limita la capacità di generalizzazione. Questa ricerca affronta tali limitazioni integrando l’imaging multimodale nel NeRF utilizzando il framework Factor Fields, che consente rappresentazioni della scena più strutturate e interpretabili. L’obiettivo è sviluppare un NeRF generalizzato in grado di adattarsi a nuove scene senza dover essere riaddestrato da zero. A supporto di ciò, il modello viene pre-addestrato su dataset diversificati per apprendere conoscenze trasferibili, migliorando la generalizzazione e l’efficienza.
Computer Vision
NeRF
Neural Networks
File in questo prodotto:
File Dimensione Formato  
Scapinello_Michele.pdf

embargo fino al 07/07/2028

Dimensione 15.41 MB
Formato Adobe PDF
15.41 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/86959