In a world dominated by the growth in popularity of deep learning, its use for action recognition (HAR) is investigated. HAR consists in predicting which action is in progress with respect to a predefined set of possible actions, fundamental in different contexts such as entertainment and the development of industry 4.0 above all. This type of industry requires spaces in which robots and human beings can collaborate in synergy and for this to be possible the ability to recognize the action that the human operator is carrying out is fundamental. For example, the robot could pass the operator a tool needed for the next action after the recognized one. HAR is possible starting from various types of information such as RGB-D images, raw data from inertial sensors (IMU), or skeletal representation (body pose). The skeleton can be particularly advantageous compared to the other modalities as a light representation and resistant to transformations such as rotations and translations. Since the skeletons can be obtained from RGB-D images or from the IMU, the aim of this work is a comparison in the context of HAR between the two production technologies. Specifically, Xsens inertial sensors and a network of Intel RGB-D cameras were used during the experimental comparison. For the classification Multilayer Perceptrons (MLP) supplied with the three-dimensional positions of the joints of the body considered as input were used. The model parameters were selected empirically through several experiments aimed at finding the best configuration. The final models obtained an Accuracy of 91.58% as best performance in the case of data obtained via IMU, while data produced by RGB-D images obtained an Accuracy of 81.72%. The better result from the IMU recognition is in line with the hypotheses related to the higher precision of the pose estimated by the inertial sensors in terms of relative body movements.

In un mondo dominato dalla crescita in termini di popolarità del Deep learning, ne viene analizzato l'utilizzo per il riconoscimento di azioni (HAR). L'HAR consiste nel predire quale azione è in corso rispetto un insieme predefinito di possibili azioni, fondamentale in diversi contesti come l'intrattenimento e, soprattutto, lo sviluppo dell'industria 4.0. Questa tipologia di industria richiede degli spazi in cui robot e esseri umani possano collaborare in sinergia e affinché ciò sia possibile è cruciale la capacità di riconoscere l'azione che sta svolgendo l'operatore umano. Ad esempio, il robot potrebbe passare all'operatore uno strumento necessaria per l'azione successiva a quella riconosciuta. L'HAR è possibile a partire da varie tipologie di informazioni come immagini RGB-D, dati grezzi provenienti da sensori inerziali (IMU), oppure la rappresentazione scheletrica (posa del corpo). Lo scheletro può risultare particolarmente vantaggioso rispetto alle altre modalità in quanto rappresentazione leggera e resistente a trasformazioni come rotazioni e traslazioni. Poiché gli scheletri possono essere ottenuti dalle immagini RGB-D o dagli IMU, l'obiettivo di questo lavoro è un confronto, nell'ambito dell'HAR, tra le due tecnologie di produzione. Nello specifico, durante il confronto sperimentale sono stati utilizzati i sensori inerziali Xsens e una rete di telecamere RGB-D Intel. Per la classificazione sono stati utilizzati dei Multilayer Perceptron (MLP) a cui sono state fornite le posizioni tridimensionali dei giunti del corpo considerate come input. I parametri del modello sono stati selezionati in modo empirico attraverso diversi esperimenti finalizzati a cercare la miglior configurazione. I modelli finali hanno ottenuto come prestazioni migliori un'Accuracy pari a 91.58% nel caso dei dati ottenuti tramite IMU, mentre un'Accuracy del 81.72% nel caso di dati prodotti dalle immagini RGB-D. Il miglior risultato da parte del riconoscimento tramite IMU è in linea con le ipotesi relative alla maggiore precisione della posa stimata dai sensori inerziali in termini di movimenti relativi del corpo.

Confronto sperimentale tra sensori RGB-D e IMU per Human Action Recognition

NORDIO, GIANLUCA
2022/2023

Abstract

In a world dominated by the growth in popularity of deep learning, its use for action recognition (HAR) is investigated. HAR consists in predicting which action is in progress with respect to a predefined set of possible actions, fundamental in different contexts such as entertainment and the development of industry 4.0 above all. This type of industry requires spaces in which robots and human beings can collaborate in synergy and for this to be possible the ability to recognize the action that the human operator is carrying out is fundamental. For example, the robot could pass the operator a tool needed for the next action after the recognized one. HAR is possible starting from various types of information such as RGB-D images, raw data from inertial sensors (IMU), or skeletal representation (body pose). The skeleton can be particularly advantageous compared to the other modalities as a light representation and resistant to transformations such as rotations and translations. Since the skeletons can be obtained from RGB-D images or from the IMU, the aim of this work is a comparison in the context of HAR between the two production technologies. Specifically, Xsens inertial sensors and a network of Intel RGB-D cameras were used during the experimental comparison. For the classification Multilayer Perceptrons (MLP) supplied with the three-dimensional positions of the joints of the body considered as input were used. The model parameters were selected empirically through several experiments aimed at finding the best configuration. The final models obtained an Accuracy of 91.58% as best performance in the case of data obtained via IMU, while data produced by RGB-D images obtained an Accuracy of 81.72%. The better result from the IMU recognition is in line with the hypotheses related to the higher precision of the pose estimated by the inertial sensors in terms of relative body movements.
2022
Experimental comparison between RGB-D and IMU sensors for Human Action Recognition
In un mondo dominato dalla crescita in termini di popolarità del Deep learning, ne viene analizzato l'utilizzo per il riconoscimento di azioni (HAR). L'HAR consiste nel predire quale azione è in corso rispetto un insieme predefinito di possibili azioni, fondamentale in diversi contesti come l'intrattenimento e, soprattutto, lo sviluppo dell'industria 4.0. Questa tipologia di industria richiede degli spazi in cui robot e esseri umani possano collaborare in sinergia e affinché ciò sia possibile è cruciale la capacità di riconoscere l'azione che sta svolgendo l'operatore umano. Ad esempio, il robot potrebbe passare all'operatore uno strumento necessaria per l'azione successiva a quella riconosciuta. L'HAR è possibile a partire da varie tipologie di informazioni come immagini RGB-D, dati grezzi provenienti da sensori inerziali (IMU), oppure la rappresentazione scheletrica (posa del corpo). Lo scheletro può risultare particolarmente vantaggioso rispetto alle altre modalità in quanto rappresentazione leggera e resistente a trasformazioni come rotazioni e traslazioni. Poiché gli scheletri possono essere ottenuti dalle immagini RGB-D o dagli IMU, l'obiettivo di questo lavoro è un confronto, nell'ambito dell'HAR, tra le due tecnologie di produzione. Nello specifico, durante il confronto sperimentale sono stati utilizzati i sensori inerziali Xsens e una rete di telecamere RGB-D Intel. Per la classificazione sono stati utilizzati dei Multilayer Perceptron (MLP) a cui sono state fornite le posizioni tridimensionali dei giunti del corpo considerate come input. I parametri del modello sono stati selezionati in modo empirico attraverso diversi esperimenti finalizzati a cercare la miglior configurazione. I modelli finali hanno ottenuto come prestazioni migliori un'Accuracy pari a 91.58% nel caso dei dati ottenuti tramite IMU, mentre un'Accuracy del 81.72% nel caso di dati prodotti dalle immagini RGB-D. Il miglior risultato da parte del riconoscimento tramite IMU è in linea con le ipotesi relative alla maggiore precisione della posa stimata dai sensori inerziali in termini di movimenti relativi del corpo.
action recognition
IMU
RGB-D camera
deep learning
machine learning
File in questo prodotto:
File Dimensione Formato  
Nordio_Gianluca.pdf

accesso aperto

Dimensione 7.5 MB
Formato Adobe PDF
7.5 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/48849