Design and Development of an Autonomous Picking System for a 6D0F Mobile Manipulator Based on Intelligent Vision and ROS2 Architecture

Automating box picking in logistics hinges on robust perception systems that can operate efficiently on resource-constrained hardware. This work, developed as an internship thesis at Innobotics S.r.l., introduces the design and validation of a complete autonomous system for a 6-DoF mobile manipulator. The primary achievement is a software-first approach that delivers high performance despite operating under significant hardware constraints, namely a standard embedded CPU and a single, low-cost RGB-D sensor with notoriously noisy depth data. At its core is a novel, anchor-free vision system that introduces a hybrid, two-stage pipeline to decouple the task of detection from grasp point localization. The first stage employs a custom, lightweight, fully convolutional deep learning model that processes only the RGB stream for rapid, efficient 2D detection of cardboard boxes. This CPU-optimized inference stage identifies regions of interest without high computational cost. Subsequently, the system leverages the full RGB-D data to execute a robust, deterministic computer vision algorithm. This second stage performs a precise geometric and colorimetric analysis of the detected box, accurately identifying the optimal topmost face for a successful grasp. This synergistic architecture successfully balances the speed of RGB-based deep learning with the precision of a classical computer vision algorithm. The algorithm performs a meticulous geometric analysis, leveraging both the 3D structure derived from depth data and the subtle features found in detailed color spaces, ensuring both speed and accuracy while maintaining low computational overhead. A key advantage of this system is its inherent modularity and adaptability, built upon the Robot Operating System 2 Humble. The perception pipeline, developed in PyTorch and OpenCV, is integrated into the broader control system using ROS2, which orchestrates the robot's actions and provides a robust, real-time communication framework. The deep learning model can be easily retrained for new, specific box types, and the classical algorithm parameters can be tuned for new environments. Experimental results validate the system's high success rate, contributing a practical, hardware-aware, and robust solution for autonomous manipulation in real-world logistics. Although guided by the project's hardware restrictions, this work lays a strong foundation for future enhancements, such as exploring more powerful models or transitioning toward unsupervised online learning platforms capable of adapting to entirely new objects in real-time.

L'automazione del prelievo di scatole nella logistica si basa su sistemi di percezione robusti in grado di operare in modo efficiente su hardware con risorse limitate. Questo lavoro, sviluppato come tesi di tirocinio presso Innobotics S.r.l., introduce la progettazione e la validazione di un sistema autonomo completo per un manipolatore mobile a 6 gradi di libertà. Il risultato principale è un approccio software-first che offre prestazioni elevate nonostante il funzionamento con vincoli hardware significativi, ovvero una CPU embedded standard e un singolo sensore RGB-D a basso costo con dati di profondità notoriamente rumorosi. Al centro del progetto c'è un nuovo sistema di visione senza ancoraggi che introduce una pipeline ibrida a due stadi per disaccoppiare l'attività di rilevamento dalla localizzazione del punto di presa. La prima fase utilizza un modello di deep learning personalizzato, leggero e completamente convoluzionale che elabora solo il flusso RGB per un rilevamento 2D rapido ed efficiente di scatole di cartone. Questa fase di inferenza, ottimizzata per la CPU, identifica le regioni di interesse senza elevati costi computazionali. Successivamente, il sistema sfrutta tutti i dati RGB-D per eseguire un algoritmo di visione artificiale robusto e deterministico. Questa seconda fase esegue un'analisi geometrica e colorimetrica precisa della scatola rilevata, identificando con precisione la superficie superiore ottimale per una presa efficace. Questa architettura sinergica bilancia con successo la velocità del deep learning basato su RGB con la precisione di un algoritmo di visione artificiale classico. L'algoritmo esegue un'analisi geometrica meticolosa, sfruttando sia la struttura 3D derivata dai dati di profondità sia le sottili caratteristiche presenti negli spazi colore dettagliati, garantendo velocità e precisione, mantenendo al contempo un basso overhead computazionale. Un vantaggio chiave di questo sistema è la sua intrinseca modularità e adattabilità, basate sul Robot Operating System 2 Humble. La pipeline di percezione, sviluppata in PyTorch e OpenCV, è integrata nel più ampio sistema di controllo utilizzando ROS2, che orchestra le azioni del robot e fornisce un robusto framework di comunicazione in tempo reale. Il modello di deep learning può essere facilmente riqualificato per nuove tipologie di scatole specifiche e i parametri dell'algoritmo classico possono essere adattati a nuovi ambienti. I risultati sperimentali convalidano l'elevato tasso di successo del sistema, contribuendo a fornire una soluzione pratica, hardware-aware e robusta per la manipolazione autonoma nella logistica del mondo reale. Sebbene guidato dalle limitazioni hardware del progetto, questo lavoro getta solide basi per futuri miglioramenti, come l'esplorazione di modelli più potenti o la transizione verso piattaforme di apprendimento online non supervisionate in grado di adattarsi a oggetti completamente nuovi in tempo reale.