Reinforcement Learning for Robotic Manipulation on Tiago Pro: A ROS2-Based Sim-to-Real Control Framework

This thesis presents a complete framework for learning and deploying manipulation policies on the TIAGo Pro robot, developed by PAL Robotics. Transferring control strategies from simulation to real hardware remains a major challenge due to safety constraints, data requirements, and the gap between simulated and real environments. Closing this sim-to-real gap is key to integrating learning-based methods into robotic systems. In this study, a policy was trained in simulation using MuJoCo (MuJoCo Playground) and the Proximal Policy Optimization (PPO) algorithm, with task-specific rewards and constraints shaping the learning process. The policy was then validated across multiple simulators: first in MuJoCo to assess sim-to-sim generalization, and subsequently in Gazebo as an intermediate step before the transfer to the real system. Finally, the policy was deployed on the TIAGo Pro robot. At the core of this framework lies a unified ROS2-based control architecture, which ensures consistent behavior across simulators and hardware. Experimental results show that the trained policy is reliably transferred to the physical robot, enabling robust autonomous manipulation. Overall, this work proposes a unified architecture for sim-to-real reinforcement learning in robotic manipulation and provides empirical evidence of its effectiveness on physical robots.

Questa tesi presenta un framework completo per l’apprendimento e l’esecuzione di policy di manipolazione sul robot TIAGo Pro, sviluppato da PAL Robotics. Il trasferimento di strategie di controllo dalla simulazione al robot reale rimane una sfida rilevante, a causa dei vincoli di sicurezza, dei requisiti di dati e del divario tra ambienti simulati e reali. Colmare questo divario è fondamentale per integrare metodi di apprendimento nei sistemi robotici. In questo studio, una policy di apprendimento è stata addestrata in simulazione con MuJoCo (MuJoCo Playground) utilizzando l’algoritmo Proximal Policy Optimization (PPO), con ricompense e vincoli specifici per guidare il processo di apprendimento per il compito specifico. La policy ottenuta è stata quindi validata in diversi simulatori: prima in MuJoCo, per valutare la generalizzazione sim-to-sim, e successivamente in Gazebo come passo intermedio prima del trasferimento al sistema reale. Infine, la policy è stata eseguita sul robot TIAGo Pro. Al centro di questo framework si trova un’architettura di controllo unificata basata su ROS2, che garantisce un comportamento coerente tra simulatori e l’hardware. I risultati sperimentali dimostrano che la policy addestrata si trasferisce in modo affidabile al robot reale, consentendo una manipolazione autonoma robusta. In conclusione, questa tesi propone un’architettura unificata sim-to-real per l’apprendimento per rinforzo nella manipolazione robotica e fornisce evidenze empiriche della sua efficacia su hardware reale.