Recognizing, tracking and predicting the movement of people indoors and analyzing their interaction with the surrounding space are fundamental tasks of artificial vision. While these environments have favorable characteristics for the application of recognition and prediction techniques, such as lighting and total coverage of spaces, the large number of objects with which people interact and the ambiguity of their movements represent challenges still not completely resolved. Various technologies based on machine learning have made it possible to recognize the people monitored and understand how they interact with the scene, mainly using depth cameras (RGB-D) and monitoring the scene from above. With the large availability of data, however, new approaches based on deep learning, have made it possible to effectively deal with the complexity of people's dynamics. This thesis aims to demonstrate the potential of these technologies in a real application environment, such as that offered by the warehouses of the Alí supermarket chain, starting from data gathering and then moving on to the use of state-of-the-art technologies with the purpose of tracking the movement and predicting the trajectories of operators while they are working. In the first part, the experimental setting for data collection will be presented; subsequently, neural networks are proposed for tracking people and carts, which represent the main targets involved in the scene. Finally, recurring and attention-based networks are compared to predict their future movement. The results obtained show that the use of a pipeline based on convolutional networks and the recent attention mechanisms make it possible to meet the requirements considered.

Riconoscere, tracciare e predire il movimento di persone in ambienti indoor ed analizzare la loro interazione con lo spazio circostante rappresentano task fondamentali della visione artificiale. Se da un lato tali ambienti presentano caratteristiche favorevoli per l’applicazione di tecniche di riconoscimento e predizione, come illuminazione e copertura totale degli spazi, dall’altro la grande quantità di oggetti con cui le persone interagiscono e l’ambiguità dei loro movimenti rappresentano sfide ancora non completamente risolte. Diverse tecnologie basate sull’apprendimento automatico hanno permesso di identificare le persone monitorate e capire come interagiscono con la scena, spesso con l’aiuto di esperti, sfruttando principalmente camere di profondità (RGB-D) e monitorando la scena dall’alto. Con la grande disponibilità di dati, tuttavia, questo paradigma si e’ evoluto utilizzando approcci basati sul deep learning, che hanno consentito di trattare efficacemente la complessità delle dinamiche delle persone. Questa tesi ha l’obiettivo di dimostrare le potenzialità di tali tecnologie in un ambito applicativo reale, quale quello offerto dai magazzini della catena di supermercati Alí, partendo dalla raccolta dei dati, per poi passare all’impiego di tecnologie allo stato dell’arte con lo scopo di tracciare il movimento e predire le traiettorie di operatori durante lo svolgimento delle loro mansioni. Nella prima parte verrà presentato il setting sperimentale messo a punto per la raccolta dei dati; successivamente, vengono proposte reti neurali per il tracciamento di persone e carrelli, che rappresentano i principali elementi coinvolti nella scena. Infine vengono comparate reti ricorrenti e basate su attenzione per prevedere il loro movimento futuro. I risultati ottenuti dimostrano che l’impiego di una pipeline basata su reti convoluzionali ed i recenti meccanismi di attenzione permettono di soddisfare i requisiti richiesti dall’ambito applicativo considerato.

Tracciamento e predizione di traiettorie umane su dati di profondità

COSTANTINO, MARCO
2020/2021

Abstract

Recognizing, tracking and predicting the movement of people indoors and analyzing their interaction with the surrounding space are fundamental tasks of artificial vision. While these environments have favorable characteristics for the application of recognition and prediction techniques, such as lighting and total coverage of spaces, the large number of objects with which people interact and the ambiguity of their movements represent challenges still not completely resolved. Various technologies based on machine learning have made it possible to recognize the people monitored and understand how they interact with the scene, mainly using depth cameras (RGB-D) and monitoring the scene from above. With the large availability of data, however, new approaches based on deep learning, have made it possible to effectively deal with the complexity of people's dynamics. This thesis aims to demonstrate the potential of these technologies in a real application environment, such as that offered by the warehouses of the Alí supermarket chain, starting from data gathering and then moving on to the use of state-of-the-art technologies with the purpose of tracking the movement and predicting the trajectories of operators while they are working. In the first part, the experimental setting for data collection will be presented; subsequently, neural networks are proposed for tracking people and carts, which represent the main targets involved in the scene. Finally, recurring and attention-based networks are compared to predict their future movement. The results obtained show that the use of a pipeline based on convolutional networks and the recent attention mechanisms make it possible to meet the requirements considered.
2020
Tracking humans and predicting trajectories from depth data
Riconoscere, tracciare e predire il movimento di persone in ambienti indoor ed analizzare la loro interazione con lo spazio circostante rappresentano task fondamentali della visione artificiale. Se da un lato tali ambienti presentano caratteristiche favorevoli per l’applicazione di tecniche di riconoscimento e predizione, come illuminazione e copertura totale degli spazi, dall’altro la grande quantità di oggetti con cui le persone interagiscono e l’ambiguità dei loro movimenti rappresentano sfide ancora non completamente risolte. Diverse tecnologie basate sull’apprendimento automatico hanno permesso di identificare le persone monitorate e capire come interagiscono con la scena, spesso con l’aiuto di esperti, sfruttando principalmente camere di profondità (RGB-D) e monitorando la scena dall’alto. Con la grande disponibilità di dati, tuttavia, questo paradigma si e’ evoluto utilizzando approcci basati sul deep learning, che hanno consentito di trattare efficacemente la complessità delle dinamiche delle persone. Questa tesi ha l’obiettivo di dimostrare le potenzialità di tali tecnologie in un ambito applicativo reale, quale quello offerto dai magazzini della catena di supermercati Alí, partendo dalla raccolta dei dati, per poi passare all’impiego di tecnologie allo stato dell’arte con lo scopo di tracciare il movimento e predire le traiettorie di operatori durante lo svolgimento delle loro mansioni. Nella prima parte verrà presentato il setting sperimentale messo a punto per la raccolta dei dati; successivamente, vengono proposte reti neurali per il tracciamento di persone e carrelli, che rappresentano i principali elementi coinvolti nella scena. Infine vengono comparate reti ricorrenti e basate su attenzione per prevedere il loro movimento futuro. I risultati ottenuti dimostrano che l’impiego di una pipeline basata su reti convoluzionali ed i recenti meccanismi di attenzione permettono di soddisfare i requisiti richiesti dall’ambito applicativo considerato.
Human tracking
Trajectory
Prediction
Depth data
Computer vision
File in questo prodotto:
File Dimensione Formato  
Costantino_Marco.pdf

accesso aperto

Dimensione 3.93 MB
Formato Adobe PDF
3.93 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/29766