This thesis explores depth prediction using deep learning techniques with images from a monocular camera. During a 320-hour internship at the VIMP Group research group of the University of Padua, several neural network models were developed, implemented, and validated, including PyDNet and XiNet. Subsequently, PyXiNet, a family of models, was created with the aim of improving the accuracy and efficiency of depth estimation. Specifically, the thesis focused on: • PyDNet: Migration of the model from TensorFlow to PyTorch with subsequent validation of the results; • XiNet: Study, validation, and application of a model with a more efficient architecture; • Attention Modules: Study, implementation, and application of attention modules to improve model performance; • PyXiNet: Exploration of combinations of the aforementioned modules and models. The results demonstrate that the use of deep learning techniques for depth estimation from monocular images is promising, with significant improvements brought about by the integration of attention modules.
Questa tesi esplora la predizione della profondità utilizzando tecniche di deep learning con immagini provenienti da una telecamera monoculare. Durante uno stage di 320 ore presso il gruppo di ricerca VIMP Group dell’Università degli Studi di Padova, sono stati sviluppati, implementati e validati diversi modelli di rete neurale, tra cui PyDNet e XiNet. È stata successivamente creata PyXiNet, una famiglia di modelli, con l’obiettivo di migliorare la precisione e l’efficienza della stima della profondità. In particolare, la tesi si è focalizzata su: • PyDNet: Migrazione del modello da TensorFlow a PyTorch con successiva validazione dei risultati; • XiNet: Studio, validazione e impiego di un modello con un’architettura più efficiente; • Moduli di Attenzione: Studio, implementazione e impiego di moduli di attenzione per migliorare le prestazioni dei modelli; • PyXiNet: esplorazione di combinazioni dei moduli e modelli precedentemente citati. I risultati dimostrano che l’uso di tecniche di deep learning per la stima della profondità da immagini monoculari è promettente, con miglioramenti significativi apportati dall’integrazione di moduli di attenzione.
Predizione della Profondità con Deep Learning da Immagini di Telecamera Monoculare
TONIOLO, RICCARDO
2023/2024
Abstract
This thesis explores depth prediction using deep learning techniques with images from a monocular camera. During a 320-hour internship at the VIMP Group research group of the University of Padua, several neural network models were developed, implemented, and validated, including PyDNet and XiNet. Subsequently, PyXiNet, a family of models, was created with the aim of improving the accuracy and efficiency of depth estimation. Specifically, the thesis focused on: • PyDNet: Migration of the model from TensorFlow to PyTorch with subsequent validation of the results; • XiNet: Study, validation, and application of a model with a more efficient architecture; • Attention Modules: Study, implementation, and application of attention modules to improve model performance; • PyXiNet: Exploration of combinations of the aforementioned modules and models. The results demonstrate that the use of deep learning techniques for depth estimation from monocular images is promising, with significant improvements brought about by the integration of attention modules.File | Dimensione | Formato | |
---|---|---|---|
Toniolo_Riccardo.pdf
accesso aperto
Dimensione
4.31 MB
Formato
Adobe PDF
|
4.31 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/70984