Negli ultimi anni la ricerca ha mostrato un notevole interesse nel task di human parsing, che consiste nel riconoscere e segmentare le varie parti del corpo umano all'interno di in un'immagine. E' di cruciale importanza in tutte le applicazioni della robotica in cui è necessaria un'interazione - attiva o passiva - con esseri umani. I modelli per risolvere questo problema richiedono un'ingente quantità di dati. Nell'ambito 2D sono stati ottenuti ottimi risultati grazie alla presenza di dataset annotati di grandi dimensioni, mentre nell'ambito 3D i dataset disponibili sono pochi e di dimensione limitata. Per questi motivi, mentre la ricerca ha fatto notevoli passi avanti sviluppando diverse architetture per il task di human parsing in dati 2D, non si è riscontrato lo stesso successo in ambito 3D: lo sviluppo di applicazioni di collaborazione uomo-robot è fortemente penalizzato. In questo lavoro di tesi viene pertanto proposta un'analisi e comparazione dei principali tool di annotazione 3D disponibili, in base alla loro usabilità, qualità dell'annotazione ottenuta, tempo di annotazione richiesto, funzionalità disponibili e l'eventuale presenza di bug. L'obiettivo di questa analisi è fare luce sugli strumenti attualmente disponibili evidenziando i loro pregi e difetti in relazione al task di human parsing. Sono stati comparati 3 tool di due tipologie diverse (pixel-wise e a 3D bounding boxes), testati su un insieme di pointclouds acquisite in laboratorio (IAS-LAB dell'Università di Padova) per mezzo di una rete di telecamere RGB-D. Con ogni tool è stato creato un piccolo dataset di 5 pointclouds annotate. I risultati ottenuti mostrano che tutti i tool consentono di effettuare annotazioni precise delle pointcloud: in particolare l'annotazione pixel-wise fornisce segmentazioni più accurate in un minor tempo rispetto all'annotazione tramite bounding boxes.
Confronto e validazione di tool di annotazione per task di human parsing in dati RGB-D
RIZZOTTI, DAVIDE
2021/2022
Abstract
Negli ultimi anni la ricerca ha mostrato un notevole interesse nel task di human parsing, che consiste nel riconoscere e segmentare le varie parti del corpo umano all'interno di in un'immagine. E' di cruciale importanza in tutte le applicazioni della robotica in cui è necessaria un'interazione - attiva o passiva - con esseri umani. I modelli per risolvere questo problema richiedono un'ingente quantità di dati. Nell'ambito 2D sono stati ottenuti ottimi risultati grazie alla presenza di dataset annotati di grandi dimensioni, mentre nell'ambito 3D i dataset disponibili sono pochi e di dimensione limitata. Per questi motivi, mentre la ricerca ha fatto notevoli passi avanti sviluppando diverse architetture per il task di human parsing in dati 2D, non si è riscontrato lo stesso successo in ambito 3D: lo sviluppo di applicazioni di collaborazione uomo-robot è fortemente penalizzato. In questo lavoro di tesi viene pertanto proposta un'analisi e comparazione dei principali tool di annotazione 3D disponibili, in base alla loro usabilità, qualità dell'annotazione ottenuta, tempo di annotazione richiesto, funzionalità disponibili e l'eventuale presenza di bug. L'obiettivo di questa analisi è fare luce sugli strumenti attualmente disponibili evidenziando i loro pregi e difetti in relazione al task di human parsing. Sono stati comparati 3 tool di due tipologie diverse (pixel-wise e a 3D bounding boxes), testati su un insieme di pointclouds acquisite in laboratorio (IAS-LAB dell'Università di Padova) per mezzo di una rete di telecamere RGB-D. Con ogni tool è stato creato un piccolo dataset di 5 pointclouds annotate. I risultati ottenuti mostrano che tutti i tool consentono di effettuare annotazioni precise delle pointcloud: in particolare l'annotazione pixel-wise fornisce segmentazioni più accurate in un minor tempo rispetto all'annotazione tramite bounding boxes.File | Dimensione | Formato | |
---|---|---|---|
Tesi di laurea Davide Rizzotti 1216409.pdf
accesso aperto
Dimensione
1.8 MB
Formato
Adobe PDF
|
1.8 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/31662