In an era marked by the rapid integration of artificial intelligence and robotics, the quest for autonomous navigation in mobile robots has emerged as a critical research frontier. This thesis delves into the realm of computer vision and deep learning to address one of the most fundamental challenges in this domain: obstacle avoidance. As robotics becomes increasingly embedded in everyday life, the ability of mobile robots to navigate complex, dynamic environments safely and efficiently is of paramount importance. Various strategies can be employed to undertake the obstacle avoidance problem, either deep learning based or involving more classical, rule-based techniques. However, a common thread that weaves through these strategies is the central role of sensing. Within the field of robot perception, computer vision plays a significant role. By effectively processing image data acquired from single or multiple cameras, computer vision empowers robots to make sense of their visual environment and make informed decisions to navigate safely. Yet, while computer vision and traditional sensing methods are essential components in autonomous navigation, they are inherently limited by the scale problem when it comes to depth perception. Monocular depth estimation, while efficient and cost-effective, faces the inherent challenge of accurately determining the absolute scale within the observed environment. This scale problem arises because a single camera inherently captures depth information in a relative manner, unable to provide an absolute understanding of the size and distance of objects. In this thesis, we leverage semantic segmentation in conjunction with minimal prior knowledge of the camera setup geometry to recover the absolute scale, thus applying scale correction to a deep learning monocular depth estimation model to reconstruct the three-dimensional scene of the environment with enhanced accuracy and fidelity. Further data processing allows to locate obstacles in the scene by using proper clustering algorithms, which will enable, in future works, to dynamically plan and adjust the robot movements in order to avoid collisions.

In un era contrassegnata dalla rapida integrazione dell’intelligenza artificiale e della robotica, l’interesse nella navigazione autonoma nei robot mobili è emerso come frontiera critica di ricerca. Questa tesi si addentra nel campo della visione artificiale e del deep learning per affrontare una delle sfide più importanti in questo ambito: quello dell’obstacle avoidance. Poiché la robotica si sta integrando sempre più nella vita quotidiana, la capacità dei robot mobili di navigare in ambienti complessi e dinamici in modo sicuro ed efficiente è di fondamentale importanza. Diverse strategie possono essere impiegate per affrontare il problema dell’obstacle avoidance, sia basate su deep learning, sia che coinvolgano tecniche rule-based più classiche. Tuttavia, un filo comune che unisce queste strategie è il ruolo centrale della percezione. All’interno di questo campo, la visione artificiale svolge un ruolo significativo. Processando efficacemente i dati dell’immagine acquisiti da telecamere singole o multiple, la visione artificiale consente ai robot di comprendere il loro ambiente visivo e prendere decisioni informate per navigare in sicurezza. Tuttavia, mentre la visione artificiale e i metodi tradizionali di sensing sono componenti essenziali nella navigazione autonoma, sono intrinsecamente limitati dal problema della scala, per quanto riguarda la percezione della profondità. La stima della profondità con camera monoculare, pur essendo efficiente e conveniente, affronta la sfida intrinseca di determinare con precisione la scala assoluta all’interno dell’ambiente osservato. Questo problema di scala sorge poiché, usando una singola telecamera, cattura intrinsecamente informazioni sulla profondità in modo relativo, incapace quindi di fornire una comprensione assoluta delle dimensioni e della distanza degli oggetti. In questa tesi, la segmentazione semantica, in combinazione con una minima conoscenza della geometria della configurazione della telecamera, verrà sfruttata per cercare di recuperare la scala assoluta, applicando quindi la correzione della scala a un modello di deep learning per monocular depth estimation, con lo scopo di ricostruire la scena tridimensionale dell’ambiente con maggiore precisione e fedeltà. Inoltre, verranno utilizzati algoritmi di clustering per permettere di individuare gli ostacoli nella scena, che consentiranno, in lavori futuri, di pianificare e correggere dinamicamente i movimenti del robot per evitare collisioni.

Scale Recovery for Monocular Depth Estimation: a Semantic Segmentation-based Approach

SARRAGGIOTTO, DAVIDE
2022/2023

Abstract

In an era marked by the rapid integration of artificial intelligence and robotics, the quest for autonomous navigation in mobile robots has emerged as a critical research frontier. This thesis delves into the realm of computer vision and deep learning to address one of the most fundamental challenges in this domain: obstacle avoidance. As robotics becomes increasingly embedded in everyday life, the ability of mobile robots to navigate complex, dynamic environments safely and efficiently is of paramount importance. Various strategies can be employed to undertake the obstacle avoidance problem, either deep learning based or involving more classical, rule-based techniques. However, a common thread that weaves through these strategies is the central role of sensing. Within the field of robot perception, computer vision plays a significant role. By effectively processing image data acquired from single or multiple cameras, computer vision empowers robots to make sense of their visual environment and make informed decisions to navigate safely. Yet, while computer vision and traditional sensing methods are essential components in autonomous navigation, they are inherently limited by the scale problem when it comes to depth perception. Monocular depth estimation, while efficient and cost-effective, faces the inherent challenge of accurately determining the absolute scale within the observed environment. This scale problem arises because a single camera inherently captures depth information in a relative manner, unable to provide an absolute understanding of the size and distance of objects. In this thesis, we leverage semantic segmentation in conjunction with minimal prior knowledge of the camera setup geometry to recover the absolute scale, thus applying scale correction to a deep learning monocular depth estimation model to reconstruct the three-dimensional scene of the environment with enhanced accuracy and fidelity. Further data processing allows to locate obstacles in the scene by using proper clustering algorithms, which will enable, in future works, to dynamically plan and adjust the robot movements in order to avoid collisions.
2022
Scale Recovery for Monocular Depth Estimation: a Semantic Segmentation-based Approach
In un era contrassegnata dalla rapida integrazione dell’intelligenza artificiale e della robotica, l’interesse nella navigazione autonoma nei robot mobili è emerso come frontiera critica di ricerca. Questa tesi si addentra nel campo della visione artificiale e del deep learning per affrontare una delle sfide più importanti in questo ambito: quello dell’obstacle avoidance. Poiché la robotica si sta integrando sempre più nella vita quotidiana, la capacità dei robot mobili di navigare in ambienti complessi e dinamici in modo sicuro ed efficiente è di fondamentale importanza. Diverse strategie possono essere impiegate per affrontare il problema dell’obstacle avoidance, sia basate su deep learning, sia che coinvolgano tecniche rule-based più classiche. Tuttavia, un filo comune che unisce queste strategie è il ruolo centrale della percezione. All’interno di questo campo, la visione artificiale svolge un ruolo significativo. Processando efficacemente i dati dell’immagine acquisiti da telecamere singole o multiple, la visione artificiale consente ai robot di comprendere il loro ambiente visivo e prendere decisioni informate per navigare in sicurezza. Tuttavia, mentre la visione artificiale e i metodi tradizionali di sensing sono componenti essenziali nella navigazione autonoma, sono intrinsecamente limitati dal problema della scala, per quanto riguarda la percezione della profondità. La stima della profondità con camera monoculare, pur essendo efficiente e conveniente, affronta la sfida intrinseca di determinare con precisione la scala assoluta all’interno dell’ambiente osservato. Questo problema di scala sorge poiché, usando una singola telecamera, cattura intrinsecamente informazioni sulla profondità in modo relativo, incapace quindi di fornire una comprensione assoluta delle dimensioni e della distanza degli oggetti. In questa tesi, la segmentazione semantica, in combinazione con una minima conoscenza della geometria della configurazione della telecamera, verrà sfruttata per cercare di recuperare la scala assoluta, applicando quindi la correzione della scala a un modello di deep learning per monocular depth estimation, con lo scopo di ricostruire la scena tridimensionale dell’ambiente con maggiore precisione e fedeltà. Inoltre, verranno utilizzati algoritmi di clustering per permettere di individuare gli ostacoli nella scena, che consentiranno, in lavori futuri, di pianificare e correggere dinamicamente i movimenti del robot per evitare collisioni.
Depth estimation
Deep learning
Scale recovery
Segmentation
Obstacle avoidance
File in questo prodotto:
File Dimensione Formato  
Sarraggiotto_Davide.pdf

accesso riservato

Dimensione 21.45 MB
Formato Adobe PDF
21.45 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/60411