Questa tesi analizza l’evoluzione delle tecniche di ricostruzione 3D nel campo della Computer Vision, con particolare attenzione al cambiamento di paradigma introdotto dai Foundation Models ed in particolare dal modello Dust3r. Dopo una panoramica sulle metodologie classiche, come Structure-from-Motion e Multi-View Stereo, vengono evidenziati i limiti di scalabilità, accuratezza e costo computazionale che hanno caratterizzato l’approccio tradizionale. L’avvento dei Foundation Models ha permesso di integrare l’apprendimento automatico con metodi geometrici, migliorando significativamente le prestazioni e la robustezza della ricostruzione tridimensionale. Dust3r rappresenta un punto di svolta grazie a un’architettura end-to-end basata su Transformer, capace di stimare pointmap 3D dense da immagini non calibrate semplificando la pipeline e ampliando le possibilità applicative. Vengono esaminate le principali evoluzioni di Dust3r, come Monst3r, Mast3r, Splatt3r, Fast3r e Align3r, che estendono l’approccio a scenari dinamici, migliorano la qualità del matching e la velocità di inferenza. L’analisi comparativa tra i diversi metodi mette in luce vantaggi, limiti e prospettive future, offrendo una visione critica e aggiornata dello stato dell’arte nella ricostruzione 3D.
Foundation Models e ricostruzione 3D: il cambiamento di paradigma introdotto da Dust3r
GARBERINO, ALVISE
2024/2025
Abstract
Questa tesi analizza l’evoluzione delle tecniche di ricostruzione 3D nel campo della Computer Vision, con particolare attenzione al cambiamento di paradigma introdotto dai Foundation Models ed in particolare dal modello Dust3r. Dopo una panoramica sulle metodologie classiche, come Structure-from-Motion e Multi-View Stereo, vengono evidenziati i limiti di scalabilità, accuratezza e costo computazionale che hanno caratterizzato l’approccio tradizionale. L’avvento dei Foundation Models ha permesso di integrare l’apprendimento automatico con metodi geometrici, migliorando significativamente le prestazioni e la robustezza della ricostruzione tridimensionale. Dust3r rappresenta un punto di svolta grazie a un’architettura end-to-end basata su Transformer, capace di stimare pointmap 3D dense da immagini non calibrate semplificando la pipeline e ampliando le possibilità applicative. Vengono esaminate le principali evoluzioni di Dust3r, come Monst3r, Mast3r, Splatt3r, Fast3r e Align3r, che estendono l’approccio a scenari dinamici, migliorano la qualità del matching e la velocità di inferenza. L’analisi comparativa tra i diversi metodi mette in luce vantaggi, limiti e prospettive future, offrendo una visione critica e aggiornata dello stato dell’arte nella ricostruzione 3D.| File | Dimensione | Formato | |
|---|---|---|---|
|
Garberino_Alvise.pdf
accesso aperto
Dimensione
4.93 MB
Formato
Adobe PDF
|
4.93 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/92196