Automated liquid handling systems are pivotal in modern laboratories, yet their operational integrity and safety are critical concerns. This thesis presents the development, optimization, and deployment of a robust, real-time, dual-task computer vision system for the NXP i.MX8MQ embedded platform, addressing critical test tube validation and robust hand interference detection. The project focused on creating a highly accurate and adaptable test tube classification module, complemented by an efficient hand monitoring system, both engineered to overcome severe computational and deployment constraints. For the foundational test tube classification task, an initial custom CNN underwent significant architectural simplification (reducing inference time by over 30%) before the adoption of MobileNetV3Small, whose performance was further enhanced via Knowledge Distillation. Crucially, advanced Continual Learning (L2 regularization with replay memory) was developed and successfully applied, ensuring robust adaptation to new labware. This model was deployed and formed the basis for the company's current operational version, with its continual learning methodologies adopted due to demonstrated efficacy. To augment system safety, a hand monitoring module was engineered. An initial YOLO-based object detection approach, leveraging a novel synthetic dataset (compositing EgoHands data onto machine backgrounds), transitioned to a more efficient image classification task using MobileNetV3Small. Elastic Weight Consolidation (EWC) with replay memory enabled this model to adapt to diverse hand appearances (e.g., various gloves) with minimal forgetting. This optimized hand classification model, achieving 100% accuracy in its final configuration, was successfully deployed and is currently operational, achieving an inference speed of approximately 490ms on the target i.MX8MQ CPU. Deployment necessitated CPU-only inference due to Go TensorFlow Lite library limitations. This demanded meticulous model selection and a sophisticated TFLite conversion pipeline, including NHWC-aware model design, to resolve runtime version incompatibilities. While the test tube model's deployment prioritized maximum robustness, forgoing quantization due to its critical role, the hand model was prepared for optimized on-device performance. The combined system demonstrates the feasibility of complex, adaptive AI on resource-constrained hardware.

I sistemi automatizzati di manipolazione di liquidi sono fondamentali nei laboratori moderni, tuttavia la loro integrità operativa e la sicurezza rappresentano aspetti di cruciale importanza. Questa tesi presenta lo sviluppo, l'ottimizzazione e il deployment di un sistema di Computer Vision robusto, real-time e dual-task per la piattaforma embedded NXP i.MX8MQ, progettato per affrontare sia la validazione critica delle provette sia il robusto rilevamento di interferenze da parte della mano umana, entrambi ingegnerizzati per superare severi vincoli computazionali e di deployment. Per il compito di classificazione delle provette, una CNN customizzata iniziale è stata sottoposta a una significativa semplificazione architetturale (riducendo il tempo di inferenza di oltre il 30%) prima dell'adozione di MobileNetV3Small, le cui prestazioni sono state ulteriormente migliorate tramite Knowledge Distillation. Sono state inoltre sviluppate e applicate con successo tecniche avanzate di Continual Learning (regolarizzazione L2 con replay memory), garantendo un'adattabilità robusta a nuovo materiale da laboratorio. Questo modello è stato messo in produzione e ha costituito la base per la versione operativa attuale dell'azienda, e le tecniche di CL adottate grazie alla loro comprovata efficacia. Per aumentare la sicurezza del sistema, è stato sviluppato un modulo di monitoraggio della mano. Un approccio iniziale di object detection basato su YOLO, che sfruttava un dataset sintetico innovativo (ottenuto componendo dati dal dataset EgoHands su sfondi specifici della macchina), è passato a un più efficiente compito di classificazione di immagini utilizzando MobileNetV3Small. La tecnica di Elastic Weight Consolidation (EWC) con replay memory ha permesso a questo modello di adattarsi a diverse apparenze della mano (ad esempio, vari tipi di guanti) con un oblio minimo. Questo modello ottimizzato per la classificazione della mano è stato implementato con successo ed è attualmente operativo. Il deployment ha richiesto un'inferenza esclusivamente su CPU a causa di limitazioni della libreria TensorFlow Lite per Go. Ciò ha imposto una meticolosa selezione del modello e una sofisticata pipeline di conversione TFLite per risolvere le incompatibilità di versione del runtime. Mentre per il deployment del modello delle provette è stata data priorità alla massima robustezza, rinunciando alla quantizzazione a causa del suo ruolo critico, il modello per la mano è stato preparato per prestazioni on-device ottimizzate. Il sistema combinato dimostra la fattibilità di un'intelligenza artificiale (AI) complessa e adattabile su hardware con risorse limitate.

Approcci di computer vision basati su AI robusti ed efficienti per monitoraggio in tempo reale di sistemi embedded di manipolazione di liquidi

FALANGA, MARCO
2024/2025

Abstract

Automated liquid handling systems are pivotal in modern laboratories, yet their operational integrity and safety are critical concerns. This thesis presents the development, optimization, and deployment of a robust, real-time, dual-task computer vision system for the NXP i.MX8MQ embedded platform, addressing critical test tube validation and robust hand interference detection. The project focused on creating a highly accurate and adaptable test tube classification module, complemented by an efficient hand monitoring system, both engineered to overcome severe computational and deployment constraints. For the foundational test tube classification task, an initial custom CNN underwent significant architectural simplification (reducing inference time by over 30%) before the adoption of MobileNetV3Small, whose performance was further enhanced via Knowledge Distillation. Crucially, advanced Continual Learning (L2 regularization with replay memory) was developed and successfully applied, ensuring robust adaptation to new labware. This model was deployed and formed the basis for the company's current operational version, with its continual learning methodologies adopted due to demonstrated efficacy. To augment system safety, a hand monitoring module was engineered. An initial YOLO-based object detection approach, leveraging a novel synthetic dataset (compositing EgoHands data onto machine backgrounds), transitioned to a more efficient image classification task using MobileNetV3Small. Elastic Weight Consolidation (EWC) with replay memory enabled this model to adapt to diverse hand appearances (e.g., various gloves) with minimal forgetting. This optimized hand classification model, achieving 100% accuracy in its final configuration, was successfully deployed and is currently operational, achieving an inference speed of approximately 490ms on the target i.MX8MQ CPU. Deployment necessitated CPU-only inference due to Go TensorFlow Lite library limitations. This demanded meticulous model selection and a sophisticated TFLite conversion pipeline, including NHWC-aware model design, to resolve runtime version incompatibilities. While the test tube model's deployment prioritized maximum robustness, forgoing quantization due to its critical role, the hand model was prepared for optimized on-device performance. The combined system demonstrates the feasibility of complex, adaptive AI on resource-constrained hardware.
2024
Robust and Efficient AI Vision for Real-Time Monitoring on Embedded Liquid Handling Systems
I sistemi automatizzati di manipolazione di liquidi sono fondamentali nei laboratori moderni, tuttavia la loro integrità operativa e la sicurezza rappresentano aspetti di cruciale importanza. Questa tesi presenta lo sviluppo, l'ottimizzazione e il deployment di un sistema di Computer Vision robusto, real-time e dual-task per la piattaforma embedded NXP i.MX8MQ, progettato per affrontare sia la validazione critica delle provette sia il robusto rilevamento di interferenze da parte della mano umana, entrambi ingegnerizzati per superare severi vincoli computazionali e di deployment. Per il compito di classificazione delle provette, una CNN customizzata iniziale è stata sottoposta a una significativa semplificazione architetturale (riducendo il tempo di inferenza di oltre il 30%) prima dell'adozione di MobileNetV3Small, le cui prestazioni sono state ulteriormente migliorate tramite Knowledge Distillation. Sono state inoltre sviluppate e applicate con successo tecniche avanzate di Continual Learning (regolarizzazione L2 con replay memory), garantendo un'adattabilità robusta a nuovo materiale da laboratorio. Questo modello è stato messo in produzione e ha costituito la base per la versione operativa attuale dell'azienda, e le tecniche di CL adottate grazie alla loro comprovata efficacia. Per aumentare la sicurezza del sistema, è stato sviluppato un modulo di monitoraggio della mano. Un approccio iniziale di object detection basato su YOLO, che sfruttava un dataset sintetico innovativo (ottenuto componendo dati dal dataset EgoHands su sfondi specifici della macchina), è passato a un più efficiente compito di classificazione di immagini utilizzando MobileNetV3Small. La tecnica di Elastic Weight Consolidation (EWC) con replay memory ha permesso a questo modello di adattarsi a diverse apparenze della mano (ad esempio, vari tipi di guanti) con un oblio minimo. Questo modello ottimizzato per la classificazione della mano è stato implementato con successo ed è attualmente operativo. Il deployment ha richiesto un'inferenza esclusivamente su CPU a causa di limitazioni della libreria TensorFlow Lite per Go. Ciò ha imposto una meticolosa selezione del modello e una sofisticata pipeline di conversione TFLite per risolvere le incompatibilità di versione del runtime. Mentre per il deployment del modello delle provette è stata data priorità alla massima robustezza, rinunciando alla quantizzazione a causa del suo ruolo critico, il modello per la mano è stato preparato per prestazioni on-device ottimizzate. Il sistema combinato dimostra la fattibilità di un'intelligenza artificiale (AI) complessa e adattabile su hardware con risorse limitate.
Computer Vision
Deep Learning
AI
Image Classification
Embedded System
File in questo prodotto:
File Dimensione Formato  
Robust and Efficient AI Vision for Real-Time Monitoring on Embedded Liquid Handling Systems.pdf

accesso aperto

Dimensione 1.19 MB
Formato Adobe PDF
1.19 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/86931