Predizione della Profondità con Deep Learning da Immagini di Telecamera Monoculare

This thesis explores depth prediction using deep learning techniques with images from a monocular camera. During a 320-hour internship at the VIMP Group research group of the University of Padua, several neural network models were developed, implemented, and validated, including PyDNet and XiNet. Subsequently, PyXiNet, a family of models, was created with the aim of improving the accuracy and efficiency of depth estimation. Specifically, the thesis focused on: • PyDNet: Migration of the model from TensorFlow to PyTorch with subsequent validation of the results; • XiNet: Study, validation, and application of a model with a more efficient architecture; • Attention Modules: Study, implementation, and application of attention modules to improve model performance; • PyXiNet: Exploration of combinations of the aforementioned modules and models. The results demonstrate that the use of deep learning techniques for depth estimation from monocular images is promising, with significant improvements brought about by the integration of attention modules.

Questa tesi esplora la predizione della profondità utilizzando tecniche di deep learning con immagini provenienti da una telecamera monoculare. Durante uno stage di 320 ore presso il gruppo di ricerca VIMP Group dell’Università degli Studi di Padova, sono stati sviluppati, implementati e validati diversi modelli di rete neurale, tra cui PyDNet e XiNet. È stata successivamente creata PyXiNet, una famiglia di modelli, con l’obiettivo di migliorare la precisione e l’efficienza della stima della profondità. In particolare, la tesi si è focalizzata su: • PyDNet: Migrazione del modello da TensorFlow a PyTorch con successiva validazione dei risultati; • XiNet: Studio, validazione e impiego di un modello con un’architettura più efficiente; • Moduli di Attenzione: Studio, implementazione e impiego di moduli di attenzione per migliorare le prestazioni dei modelli; • PyXiNet: esplorazione di combinazioni dei moduli e modelli precedentemente citati. I risultati dimostrano che l’uso di tecniche di deep learning per la stima della profondità da immagini monoculari è promettente, con miglioramenti significativi apportati dall’integrazione di moduli di attenzione.

Predizione della Profondità con Deep Learning da Immagini di Telecamera Monoculare

TONIOLO, RICCARDO

2023/2024

Abstract

This thesis explores depth prediction using deep learning techniques with images from a monocular camera. During a 320-hour internship at the VIMP Group research group of the University of Padua, several neural network models were developed, implemented, and validated, including PyDNet and XiNet. Subsequently, PyXiNet, a family of models, was created with the aim of improving the accuracy and efficiency of depth estimation. Specifically, the thesis focused on: • PyDNet: Migration of the model from TensorFlow to PyTorch with subsequent validation of the results; • XiNet: Study, validation, and application of a model with a more efficient architecture; • Attention Modules: Study, implementation, and application of attention modules to improve model performance; • PyXiNet: Exploration of combinations of the aforementioned modules and models. The results demonstrate that the use of deep learning techniques for depth estimation from monocular images is promising, with significant improvements brought about by the integration of attention modules.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Dipartimento di Matematica "Tullio Levi-Civita" - DM
			
	Corso di studio
	
				INFORMATICA Laurea di Primo Livello (D.M. 270/2004)
			
	Anno Accademico
	
				2023
			
	Titolo inglese
	
				A Deep Learning approach for Depth Prediction from Monocular Camera Images
			
	Abstract in italiano
	
				Questa tesi esplora la predizione della profondità utilizzando tecniche di deep learning con immagini provenienti da una telecamera monoculare. Durante uno stage di 320 ore presso il gruppo di ricerca VIMP Group dell’Università degli Studi di Padova, sono stati sviluppati, implementati e validati diversi modelli di rete neurale, tra cui PyDNet e XiNet. È stata successivamente creata PyXiNet, una famiglia di modelli, con l’obiettivo di migliorare la precisione e l’efficienza della stima della profondità.
In particolare, la tesi si è focalizzata su:
• PyDNet: Migrazione del modello da TensorFlow a PyTorch con successiva validazione dei risultati;
• XiNet: Studio, validazione e impiego di un modello con un’architettura più efficiente;
• Moduli di Attenzione: Studio, implementazione e impiego di moduli di attenzione per migliorare le prestazioni dei modelli;
• PyXiNet: esplorazione di combinazioni dei moduli e modelli precedentemente citati.
I risultati dimostrano che l’uso di tecniche di deep learning per la stima della profondità da immagini monoculari è promettente, con miglioramenti significativi apportati dall’integrazione di moduli di attenzione.
			
	Parola chiave
	
				Deep Learning
Profondità
Immagini Monoculari
			
	Relatore
	
				BALLAN, LAMBERTO
			
	Appare nelle tipologie:
	
				Lauree triennali

File in questo prodotto:

File	Dimensione	Formato
Toniolo_Riccardo.pdf accesso aperto Dimensione 4.31 MB Formato Adobe PDF Visualizza/Apri	4.31 MB	Adobe PDF	Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/70984