We are seeing an ever growing use of artificial intelligence in all industrial and private applications. While the literature is already exploring AI in robotics in domestic and collaborative scenarios; in this work we explore the use of generative models such as large language models (LLMs) and visual language models (VLMs) in the industrial robotics application. In this thesis we address the bin picking problem with model-less objects. In our work we use generative AI to analyze the scene using an RGB picture and 3D data, perform reasoning and physical analysis in order to grasp never seen before objects starting from an high-level textual description. We achieve a 75% success rate on the whole process, obtaining at least one grasping point in the context of zero-shot random bin picking. The image analysis and object recognition step reaches instead accuracy of up to 97%. With this work we give a concrete starting point to apply generative AI to the robotics world, performing experiments in a real world industrial scenario, avoiding ”toy examples” specifically crafted to make the process more streamlined.

Stiamo assistendo ad un sempre più diffuso uso dell’ intelligenza artificiale in ambito industriale e privato. Se da un lato la comunità di ricerca ha già esplorato l’uso dell’ AI nella robotica domestica e collaborativa, in questo lavoro analizziamo l’uso di modelli generativi come i grandi modelli linguistici(LLM) e dei modelli linguistico-visivi(VLM), nelle applicazioni di robotica industriale. In questa tesi affrontiamo il problema del bin picking con oggetti privi di modello CAD. La nostra proposta utilizza l’IA generativa per analizzare la scena a partire da un’immagine RGB e da dati 3D, eseguendo ragionamento e analisi fisica al fine di afferrare oggetti mai visti prima sulla base di una descrizione testuale ad alto livello. Abbiamo ottenuto un tasso di successo del 75% sull’intero processo, individuando un punto di presa valido in scenari di bin picking casuale con la condizione zero-shot. La fase di analisi delle immagini e riconoscimento degli oggetti raggiunge invece un’accuratezza fino al 97%. Con questo lavoro forniamo un punto di partenza concreto per l’applicazione dell’IA generativa al mondo della robotica, presentando esperimenti in uno scenario industriale reale ed evitando i ”toy examples” appositamente costruiti per semplificare il processo.

Design and development of an LLM-based algorithm for the picking of model-less objects

COLLA, FRANCESCO
2024/2025

Abstract

We are seeing an ever growing use of artificial intelligence in all industrial and private applications. While the literature is already exploring AI in robotics in domestic and collaborative scenarios; in this work we explore the use of generative models such as large language models (LLMs) and visual language models (VLMs) in the industrial robotics application. In this thesis we address the bin picking problem with model-less objects. In our work we use generative AI to analyze the scene using an RGB picture and 3D data, perform reasoning and physical analysis in order to grasp never seen before objects starting from an high-level textual description. We achieve a 75% success rate on the whole process, obtaining at least one grasping point in the context of zero-shot random bin picking. The image analysis and object recognition step reaches instead accuracy of up to 97%. With this work we give a concrete starting point to apply generative AI to the robotics world, performing experiments in a real world industrial scenario, avoiding ”toy examples” specifically crafted to make the process more streamlined.
2024
Design and development of an LLM-based algorithm for the picking of model-less objects
Stiamo assistendo ad un sempre più diffuso uso dell’ intelligenza artificiale in ambito industriale e privato. Se da un lato la comunità di ricerca ha già esplorato l’uso dell’ AI nella robotica domestica e collaborativa, in questo lavoro analizziamo l’uso di modelli generativi come i grandi modelli linguistici(LLM) e dei modelli linguistico-visivi(VLM), nelle applicazioni di robotica industriale. In questa tesi affrontiamo il problema del bin picking con oggetti privi di modello CAD. La nostra proposta utilizza l’IA generativa per analizzare la scena a partire da un’immagine RGB e da dati 3D, eseguendo ragionamento e analisi fisica al fine di afferrare oggetti mai visti prima sulla base di una descrizione testuale ad alto livello. Abbiamo ottenuto un tasso di successo del 75% sull’intero processo, individuando un punto di presa valido in scenari di bin picking casuale con la condizione zero-shot. La fase di analisi delle immagini e riconoscimento degli oggetti raggiunge invece un’accuratezza fino al 97%. Con questo lavoro forniamo un punto di partenza concreto per l’applicazione dell’IA generativa al mondo della robotica, presentando esperimenti in uno scenario industriale reale ed evitando i ”toy examples” appositamente costruiti per semplificare il processo.
LLM
AI
Robotics
Industrial
File in questo prodotto:
File Dimensione Formato  
Colla_Francesco.pdf

embargo fino al 06/10/2026

Dimensione 4.44 MB
Formato Adobe PDF
4.44 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/93667