Negli ultimi anni la ricerca ha mostrato un notevole interesse nel task di human parsing, che consiste nel riconoscere e segmentare le varie parti del corpo umano all'interno di in un'immagine. E' di cruciale importanza in tutte le applicazioni della robotica in cui è necessaria un'interazione - attiva o passiva - con esseri umani. I modelli per risolvere questo problema richiedono un'ingente quantità di dati. Nell'ambito 2D sono stati ottenuti ottimi risultati grazie alla presenza di dataset annotati di grandi dimensioni, mentre nell'ambito 3D i dataset disponibili sono pochi e di dimensione limitata. Per questi motivi, mentre la ricerca ha fatto notevoli passi avanti sviluppando diverse architetture per il task di human parsing in dati 2D, non si è riscontrato lo stesso successo in ambito 3D: lo sviluppo di applicazioni di collaborazione uomo-robot è fortemente penalizzato. In questo lavoro di tesi viene pertanto proposta un'analisi e comparazione dei principali tool di annotazione 3D disponibili, in base alla loro usabilità, qualità dell'annotazione ottenuta, tempo di annotazione richiesto, funzionalità disponibili e l'eventuale presenza di bug. L'obiettivo di questa analisi è fare luce sugli strumenti attualmente disponibili evidenziando i loro pregi e difetti in relazione al task di human parsing. Sono stati comparati 3 tool di due tipologie diverse (pixel-wise e a 3D bounding boxes), testati su un insieme di pointclouds acquisite in laboratorio (IAS-LAB dell'Università di Padova) per mezzo di una rete di telecamere RGB-D. Con ogni tool è stato creato un piccolo dataset di 5 pointclouds annotate. I risultati ottenuti mostrano che tutti i tool consentono di effettuare annotazioni precise delle pointcloud: in particolare l'annotazione pixel-wise fornisce segmentazioni più accurate in un minor tempo rispetto all'annotazione tramite bounding boxes.

Confronto e validazione di tool di annotazione per task di human parsing in dati RGB-D

RIZZOTTI, DAVIDE
2021/2022

Abstract

Negli ultimi anni la ricerca ha mostrato un notevole interesse nel task di human parsing, che consiste nel riconoscere e segmentare le varie parti del corpo umano all'interno di in un'immagine. E' di cruciale importanza in tutte le applicazioni della robotica in cui è necessaria un'interazione - attiva o passiva - con esseri umani. I modelli per risolvere questo problema richiedono un'ingente quantità di dati. Nell'ambito 2D sono stati ottenuti ottimi risultati grazie alla presenza di dataset annotati di grandi dimensioni, mentre nell'ambito 3D i dataset disponibili sono pochi e di dimensione limitata. Per questi motivi, mentre la ricerca ha fatto notevoli passi avanti sviluppando diverse architetture per il task di human parsing in dati 2D, non si è riscontrato lo stesso successo in ambito 3D: lo sviluppo di applicazioni di collaborazione uomo-robot è fortemente penalizzato. In questo lavoro di tesi viene pertanto proposta un'analisi e comparazione dei principali tool di annotazione 3D disponibili, in base alla loro usabilità, qualità dell'annotazione ottenuta, tempo di annotazione richiesto, funzionalità disponibili e l'eventuale presenza di bug. L'obiettivo di questa analisi è fare luce sugli strumenti attualmente disponibili evidenziando i loro pregi e difetti in relazione al task di human parsing. Sono stati comparati 3 tool di due tipologie diverse (pixel-wise e a 3D bounding boxes), testati su un insieme di pointclouds acquisite in laboratorio (IAS-LAB dell'Università di Padova) per mezzo di una rete di telecamere RGB-D. Con ogni tool è stato creato un piccolo dataset di 5 pointclouds annotate. I risultati ottenuti mostrano che tutti i tool consentono di effettuare annotazioni precise delle pointcloud: in particolare l'annotazione pixel-wise fornisce segmentazioni più accurate in un minor tempo rispetto all'annotazione tramite bounding boxes.
2021
Comparison and validation of annotation tools for human parsing tasks in RGB-D data
Human Parsing
Annotation Tools
RGB-D images
File in questo prodotto:
File Dimensione Formato  
Tesi di laurea Davide Rizzotti 1216409.pdf

accesso aperto

Dimensione 1.8 MB
Formato Adobe PDF
1.8 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/31662