This thesis explores the development of a grasping pipeline capable of operating in cluttered scenes, with particular focus on situations where the target object may be partially or fully occluded. By exploiting RGB-D input, the main objective is to identify and grasp a specific item in complex environments, moving towards practical integration in real-world settings such as warehouses, domestic spaces, and, in particular, waste-sorting applications. The proposed system, named HOTLOS (Heatmap-Oriented Target Localization in Occluded Scenes), introduces a deep-learning–driven framework that employs heatmaps extracted from RGB-D data to predict optimal grasp points and precisely locate and select the intended object, even when partially or fully hidden. By incorporating powerful pre-trained vision-language models, HOTLOS uses a text prompt to identify the target object and determine whether it is visible or occluded. The system achieves a faster, more accurate, and broadly adaptable grasping strategy through visual attention mechanisms and semantic understanding. The effectiveness of HOTLOS will be evaluated in a simulation environment specifically developed for this work, populated with objects selected from publicly available datasets. This environment enables extensive testing across a wide range of cluttered and occluded scenarios, making it possible to systematically test the system’s robustness in realistic cluttered and occluded settings. Performance was evaluated through key indicators such as success rate, recognition accuracy, and grasp accuracy. Across 100 trials, the system achieved a 74% recognition rate, a 70% grasp success rate, and an overall success rate of 52%. These results are particularly significant considering the high variability of object configurations, the presence of occlusions, and the fact that all models were used in zero-shot mode without retraining. Notably, the success rate remained stable even in occluded scenes, highlighting the robustness of the modular pipeline.

Questa tesi esplora lo sviluppo di una pipeline di grasping in grado di operare in scene affollate (cluttered), con particolare attenzione a situazioni in cui l’oggetto target può essere parzialmente o completamente occluso. Sfruttando input RGB-D, l’obiettivo principale è identificare e afferrare un oggetto specifico in ambienti complessi, con una prospettiva di integrazione pratica in contesti reali come magazzini, ambienti domestici e, in particolare, applicazioni per la selezione dei rifiuti. Il sistema proposto, denominato HOTLOS (Heatmap-Oriented Target Localization in Occluded Scenes), introduce un framework basato su deep learning che utilizza heatmap estratte dai dati RGB-D per prevedere i punti di presa ottimali e localizzare con precisione l’oggetto desiderato, anche quando è parzialmente o completamente nascosto. Integrando potenti modelli visione-linguaggio preaddestrati, HOTLOS impiega un prompt testuale per identificare l’oggetto target e determinare se sia visibile oppure occluso. Il sistema adotta meccanismi di attenzione visiva e comprensione semantica per ottenere una strategia di grasping più rapida, accurata e adattabile a diversi scenari. L’efficacia di HOTLOS è stata valutata in un ambiente simulato sviluppato appositamente per questo lavoro, popolato con oggetti selezionati da dataset pubblici. Questo ambiente ha permesso di condurre test approfonditi su un’ampia varietà di scenari con clutter e occlusioni, rendendo possibile una valutazione sistematica della robustezza del sistema in contesti realistici. Le prestazioni sono state misurate attraverso indicatori chiave quali il tasso di riconoscimento, il successo del grasp e il tasso di successo complessivo. Su 100 prove, il sistema ha ottenuto un tasso di riconoscimento del 74%, un tasso di successo del grasp del 70% e un successo complessivo del 52%. Questi risultati sono particolarmente significativi considerando l’elevata variabilità nella disposizione degli oggetti, la presenza di occlusioni e il fatto che tutti i modelli siano stati utilizzati in modalità zero-shot, cioè senza alcuna fase di riaddestramento. Degno di nota è il fatto che il tasso di successo sia rimasto stabile anche in scene occluse, a conferma della robustezza della pipeline modulare proposta.

Grasping target objects in cluttered and occluded scenes: a heatmap-guided pipeline

PADOAN, CLAUDIO
2024/2025

Abstract

This thesis explores the development of a grasping pipeline capable of operating in cluttered scenes, with particular focus on situations where the target object may be partially or fully occluded. By exploiting RGB-D input, the main objective is to identify and grasp a specific item in complex environments, moving towards practical integration in real-world settings such as warehouses, domestic spaces, and, in particular, waste-sorting applications. The proposed system, named HOTLOS (Heatmap-Oriented Target Localization in Occluded Scenes), introduces a deep-learning–driven framework that employs heatmaps extracted from RGB-D data to predict optimal grasp points and precisely locate and select the intended object, even when partially or fully hidden. By incorporating powerful pre-trained vision-language models, HOTLOS uses a text prompt to identify the target object and determine whether it is visible or occluded. The system achieves a faster, more accurate, and broadly adaptable grasping strategy through visual attention mechanisms and semantic understanding. The effectiveness of HOTLOS will be evaluated in a simulation environment specifically developed for this work, populated with objects selected from publicly available datasets. This environment enables extensive testing across a wide range of cluttered and occluded scenarios, making it possible to systematically test the system’s robustness in realistic cluttered and occluded settings. Performance was evaluated through key indicators such as success rate, recognition accuracy, and grasp accuracy. Across 100 trials, the system achieved a 74% recognition rate, a 70% grasp success rate, and an overall success rate of 52%. These results are particularly significant considering the high variability of object configurations, the presence of occlusions, and the fact that all models were used in zero-shot mode without retraining. Notably, the success rate remained stable even in occluded scenes, highlighting the robustness of the modular pipeline.
2024
Grasping target objects in cluttered and occluded scenes: a heatmap-guided pipeline
Questa tesi esplora lo sviluppo di una pipeline di grasping in grado di operare in scene affollate (cluttered), con particolare attenzione a situazioni in cui l’oggetto target può essere parzialmente o completamente occluso. Sfruttando input RGB-D, l’obiettivo principale è identificare e afferrare un oggetto specifico in ambienti complessi, con una prospettiva di integrazione pratica in contesti reali come magazzini, ambienti domestici e, in particolare, applicazioni per la selezione dei rifiuti. Il sistema proposto, denominato HOTLOS (Heatmap-Oriented Target Localization in Occluded Scenes), introduce un framework basato su deep learning che utilizza heatmap estratte dai dati RGB-D per prevedere i punti di presa ottimali e localizzare con precisione l’oggetto desiderato, anche quando è parzialmente o completamente nascosto. Integrando potenti modelli visione-linguaggio preaddestrati, HOTLOS impiega un prompt testuale per identificare l’oggetto target e determinare se sia visibile oppure occluso. Il sistema adotta meccanismi di attenzione visiva e comprensione semantica per ottenere una strategia di grasping più rapida, accurata e adattabile a diversi scenari. L’efficacia di HOTLOS è stata valutata in un ambiente simulato sviluppato appositamente per questo lavoro, popolato con oggetti selezionati da dataset pubblici. Questo ambiente ha permesso di condurre test approfonditi su un’ampia varietà di scenari con clutter e occlusioni, rendendo possibile una valutazione sistematica della robustezza del sistema in contesti realistici. Le prestazioni sono state misurate attraverso indicatori chiave quali il tasso di riconoscimento, il successo del grasp e il tasso di successo complessivo. Su 100 prove, il sistema ha ottenuto un tasso di riconoscimento del 74%, un tasso di successo del grasp del 70% e un successo complessivo del 52%. Questi risultati sono particolarmente significativi considerando l’elevata variabilità nella disposizione degli oggetti, la presenza di occlusioni e il fatto che tutti i modelli siano stati utilizzati in modalità zero-shot, cioè senza alcuna fase di riaddestramento. Degno di nota è il fatto che il tasso di successo sia rimasto stabile anche in scene occluse, a conferma della robustezza della pipeline modulare proposta.
Grasping
Cluttered scene
Heatmap-guided
Occluded target
Deep-Learning
File in questo prodotto:
File Dimensione Formato  
Padoan_Claudio.pdf

accesso aperto

Dimensione 2.68 MB
Formato Adobe PDF
2.68 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/86934