Exploration of dense objects nets with application to a robotic demonstrator for industrial bin-picking

Defining an effective object representation technique remains an important and challenging task in computer vision, particularly in vision systems applied to robotic manipulation, where robust, discriminative, and consistent representations are essential. While recent deep learning methods have achieved notable results both in object recognition and manipulation, they often rely on task-specific models tailored to particular applications, limiting their flexibility across different tasks. To address these limitations, Dense Object Nets (DONs) introduced a general, task-agnostic approach by mapping entire object surfaces into a high-dimensional descriptor space. This dense, pixel-wise object representation can serve as a building block for a variety of manipulation tasks, increasing the adaptability and robustness of vision-based robotic systems. This thesis focuses on the implementation of a DONs framework, starting from the original model and adapting it based on modifications proposed in subsequent works. The implemented system incorporates improvements in the training process and evaluation methods to enhance performance in real-world scenarios. In particular, we introduced a synthetic data generation pipeline, which automatically creates input datasets using 3D models of objects, allowing for the training of DONs with diverse, high-quality data, without relying on the complex and error-prone real-world data collection process described in the original implementation. This approach is particularly valuable in industrial settings, where synthetic data can be used to quickly and reliably generate training samples, reducing the need for extensive real-world data collection while improving system robustness and adaptability to new objects and environments. To evaluate the applicability and performance of our system, we selected bin-picking as a use case due to its complexity, involving random object orientations and occlusions in unstructured environments. We conducted extensive experiments, including an ablation study of hyperparameters, to assess the system’s performance in both synthetic and real-world scenarios. The results showed that our DON-based framework is effective in generating robust object representations, demonstrating its potential for a wide range of industrial manipulation tasks.

Definire una tecnica di rappresentazione degli oggetti che sia robusta, discriminativa e consistente rimane un difficile e fondamentale problema in computer vision, in particolare per i sistemi di visione applicati alla manipolazione robotica. Sebbene i recenti metodi basati sul deep learning abbiano ottenuto risultati notevoli, sia nel riconoscimento degli oggetti che nella definizione di possibili pose di presa, queste tecniche spesso si basano su modelli altamente specializzati e difficilmente riutilizzabili in più scenari. Per affrontare queste limitazioni, Dense Object Nets (DONs) introduce un approccio generico, offrendo una tecnica di rappresentazione indipendente dall'applicazione d'utilizzo. I modelli DONs mappano l'intera superficie di un oggetto in uno spazio descrittore ad alta dimensionalità offrendo così una rappresentazione densa, basata sui singoli pixel, che ben si presta per una varietà di compiti di manipolazione. Questa tesi si concentra sull'implementazione di un framework basato su DONs, partendo dal modello originale e adattandolo in base alle modifiche proposte nei lavori successivi. In particolare, è stata introdotta una pipeline per la generazione di dataset sintetici, che permette di creare automaticamente training data partendo da modelli 3D di oggetti noti, permettendo così l'addestramento di DONs con dati di alta qualità, senza dover dipendere dal complesso processo di raccolta dati reali descritto nell'implementazione originale. Questo approccio è particolarmente utile in contesti industriali, dove i dati sintetici possono essere utilizzati per generare rapidamente e in modo affidabile dataset di allenamento, riducendo la necessità di un'estesa raccolta di dati reali e migliorando la robustezza del sistema a nuovi oggetti e ambienti. Data la precisione richiesta nel gestire oggetti orientati casualmente e parzialmente occlusi abbiamo scelto il bin-picking come caso di studio per valutare le prestazioni del nostro sistema e la sua applicabilità in un ambiente industriale. Abbiamo condotto esperimenti approfonditi, incluso uno studio di ottimizzazione sugli iperparametri del modello, e introdotto numerose metriche per valutare le prestazioni del sistema sia in scenari sintetici che reali. I risultati ottenuti mostrano come il nostro framework basato su DONs, risulti efficace nel generare rappresentazioni robuste per gli oggetti in esame, dimostrando il suo potenziale per un'ampia gamma di compiti di manipolazione industriale.