This thesis explores the development of real-time human-computer interaction system using advanced computer vision techniques. The primary goal is to design and implement a robust object detection system that balances high accuracy with low latency, enabling more natural and efficient interactions between humans and machines. To achieve this, a novel approach is employed to generate the object detection dataset using SAM [1], a zero-shot model that segments anything without additional training. This significantly reduces the need for manual annotation and enhances the system’s adaptability. Thus, allowing users to create their datasets with custom objects tailored to specific applications. For the choice of the object detection model, it was considered important not to require too many images for training to avoid a lengthy acquisition procedure for the user. The project was developed internally at Unox S.p.A., where a hardware prototype was also constructed following a careful evaluation of available components. Due to a Non-Disclosure Agreement (NDA) with the company, some technical details are omitted in this work. The results obtained indicate that the model is capable of detecting objects without requiring excessive data for training. This is due to the fact that the environment in which the training data is acquired is very similar to the real scenario in which the model is deployed, and to the strong augmentation implemented during the training procedure, which helps significantly with convergence. These obtained performances encourage the further development of this project by adding features and functions such as SAM [1] with video for data acquisition, an automatic training procedure, and object tracking between subsequent frames. These are illustrated in Chapter 7, and it is possible to further expand the concept with innovative ideas.
Questa tesi esplora lo sviluppo di un sistema di interazione umano-macchina in tempo reale, utilizzando tecniche avanzate di computer vision. L'obiettivo principale è progettare e implementare un sistema robusto di object detection che bilanci alte prestazioni con bassa latenza, consentendo interazioni più naturali ed efficienti tra esseri umani e macchine. A questo scopo, viene inoltre introdotto un approccio innovativo per generare il dataset di object detection; utilizzando SAM [1], un modello zero-shot capace di segmentare qualsiasi cosa senza la necessità di effettuare training aggiuntivo. Questo riduce significativamente la necessità di annotazione manuale e rende il sistema adattabile, consentendo quindi agli utenti di creare il proprio dataset con oggetti personalizzati per applicazioni specifiche. Per la selezione del modello di object detection si è tenuto conto anche del fatto di non richiedere un numero eccessivo di immagini per il training per evitare all'utente una procedura di acquisizione lunga e complessa. Il progetto è stato sviluppato internamente presso Unox S.p.A., dove è stato costruito anche un prototipo hardware a seguito di un'attenta valutazione dei componenti disponibili. A causa di un Accordo di Non Divulgazione (NDA) con l'azienda, alcuni dettagli tecnici sono omessi durante la stesura di questo lavoro. I risultati ottenuti indicano che il modello è in grado di rilevare gli oggetti senza richiedere una quantità elevata di immagini per il training. Ciò è dovuto al fatto che l'ambiente in cui vengono acquisiti i dati di addestramento è molto simile allo scenario reale in cui il modello verrà utilizzato, e anche alla forte data augmentation implementata durante la procedura di training, la quale contribuisce in modo significativo alla convergenza. Le prestazioni ottenute incoraggiano l'ulteriore sviluppo di questo progetto, come ipotizzato nel capitolo 7, difatti possono essere implementate diverse funzioni quali l'utilizzo di SAM [1] con i video per la data acquisition, una procedura di training automatico e il tracking di oggetti tra frame successivi. In aggiunta, è possibile ampliare ulteriormente il progetto con idee innovative riguardo alle funzionalità dello stesso.
Real-Time Object Detection on Edge Device Using Zero-Shot Dataset Generation
SPROCATTI, MICHELE
2024/2025
Abstract
This thesis explores the development of real-time human-computer interaction system using advanced computer vision techniques. The primary goal is to design and implement a robust object detection system that balances high accuracy with low latency, enabling more natural and efficient interactions between humans and machines. To achieve this, a novel approach is employed to generate the object detection dataset using SAM [1], a zero-shot model that segments anything without additional training. This significantly reduces the need for manual annotation and enhances the system’s adaptability. Thus, allowing users to create their datasets with custom objects tailored to specific applications. For the choice of the object detection model, it was considered important not to require too many images for training to avoid a lengthy acquisition procedure for the user. The project was developed internally at Unox S.p.A., where a hardware prototype was also constructed following a careful evaluation of available components. Due to a Non-Disclosure Agreement (NDA) with the company, some technical details are omitted in this work. The results obtained indicate that the model is capable of detecting objects without requiring excessive data for training. This is due to the fact that the environment in which the training data is acquired is very similar to the real scenario in which the model is deployed, and to the strong augmentation implemented during the training procedure, which helps significantly with convergence. These obtained performances encourage the further development of this project by adding features and functions such as SAM [1] with video for data acquisition, an automatic training procedure, and object tracking between subsequent frames. These are illustrated in Chapter 7, and it is possible to further expand the concept with innovative ideas.| File | Dimensione | Formato | |
|---|---|---|---|
|
Sprocatti_Michele.pdf
embargo fino al 02/12/2028
Dimensione
3.21 MB
Formato
Adobe PDF
|
3.21 MB | Adobe PDF |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/99558