A Stereo Vision SLAM Front-End for the Formula Student Driverless Competition

Formula Student is an international engineering competition where student teams design, build, and race formula-style cars. The Driverless category challenges teams to develop autonomous vehicles capable of navigating and competing in dynamic and static events without a human driver. To achieve this, the car must construct a map of its environment and localize itself within it, essentially solving the well-known Simultaneous Localization and Mapping (SLAM) problem. The SLAM process is typically divided in front-end, which involves sensor data collection and landmark extraction, and back-end, which focuses on optimizing the vehicle’s estimated trajectory and the generated map. This thesis, developed in collaboration with the Race UP Driverless team at the University of Padova, presents a Stereo Vision SLAM Front-End system for detecting and classifying the cones that delimit the track while estimating their positions along with a covariance matrix that quantifies the uncertainty of the estimation. A new stereo camera setup using FLIR Blackfly S cameras is introduced, replacing the previous system and enhancing depth estimation. The thesis discusses the challenges of stereo vision calibration, synchronization, and integration into the existing software stack. Additionally, a fine-tuned YOLO11-Pose model is presented, detailing the rationale behind its selection and the dataset creation process for training. This model improves classification accuracy, detects cones, and predicts peak point positions, all while being more computationally efficient than the previous setup. The entire pipeline is implemented in ROS (Robotics Operating System) and evaluated against the previous system, demonstrating significant improvements in accuracy and computational efficiency.

La Formula Student è una competizione ingegneristica internazionale in cui team di studenti progettano, costruiscono e gareggiano con auto in stile formula. La categoria Driverless sfida i team a sviluppare veicoli autonomi in grado di affrontare eventi statici e dinamici senza un pilota umano. Per raggiungere questo obiettivo, l’auto deve costruire una mappa dell’ambiente circostante e localizzarsi al suo interno, risolvendo il problema della Localizzazione e Mappatura Simultanea (SLAM). L’algoritmo SLAM si suddivide in due componenti principali: front-end, che si occupa dell’acquisizione dei dati sensoriali e dell’estrazione dei landmark, e back-end, che ottimizza la traiettoria stimata del veicolo e la mappa generata. Questa tesi, sviluppata in collaborazione con il team Race UP Driverless dell'Università di Padova, presenta un Stereo Vision SLAM Front-End per il rilevamento e la classificazione dei coni che delimitano il tracciato. Il sistema stima la posizione dei coni e associa a ciascuna rilevazione una matrice di covarianza per quantificare l’incertezza della stima. È stata introdotta una nuova configurazione di telecamere stereo FLIR Blackfly S, che sostituisce il sistema precedente e migliora significativamente la stima della profondità. La tesi analizza le sfide legate alla calibrazione e sincronizzazione delle telecamere stereo, descrivendone l’integrazione nel software esistente. Inoltre, viene presentato un modello YOLO11-Pose fine-tuned, con un’analisi dettagliata delle motivazioni che hanno portato alla sua scelta e del processo di creazione del dataset per l’addestramento. Questo modello migliora l'accuratezza della classificazione, rileva i coni e predice la posizione dei vertici, garantendo un’elaborazione più efficiente rispetto alla soluzione precedente. L’intera pipeline è implementata all’interno di ROS (Robot Operating System) e valutata confrontandola con il sistema esistente. I risultati dimostrano miglioramenti significativi in termini di precisione ed efficienza computazionale.