La stima tridimensionale (3D) della posa umana da singola immagine è un compito fondamentale della visione artificiale, che consiste nel prevedere la configurazione articolare del corpo nello spazio 3D. Nonostante le difficoltà legate a fattori come occlusioni, ambiguità della profondità e condizioni di acquisizione non controllate, la stima tridimensionale della posa umana ha acquisito un ruolo centrale in numerosi ambiti applicativi come realtà aumentata, scenari di interazione uomo-macchina, scenari sportivi e di sicurezza. Questa tesi presenta un’analisi dei principali approcci a tale problema, distinguendo tra metodi basati su modelli parametrici e metodi basati su rappresentazione scheletrica. I primi utilizzano il modello SMPL per ricostruire una mesh tridimensionale del corpo a partire da un’immagine, ma sono più complessi da addestrare e sensibili al rumore dei dati. I secondi, invece, si basano su una rappresentazione scheletrica e prevedono direttamente le coordinate tridimensionali dei giunti a partire dai giunti bidimensionali rilevati nell'immagine. Questi ultimi sono più leggeri e perciò adatti a scenari real-time ma non consentono di ottenere informazioni dettagliate sulla morfologia del corpo e soffrono maggiormente i problemi di ambiguità della profondità. L’analisi considera sia scenari single-person, in cui l’obiettivo è stimare la posa di un singolo individuo, sia scenari multi-person, in cui occorre gestire occlusioni e associazioni corrette dei giunti tra più soggetti presenti nella stessa immagine.

Stima tridimensionale della posa umana da singola immagine: un'analisi dei metodi

NOVKOVIC, ELENA
2024/2025

Abstract

La stima tridimensionale (3D) della posa umana da singola immagine è un compito fondamentale della visione artificiale, che consiste nel prevedere la configurazione articolare del corpo nello spazio 3D. Nonostante le difficoltà legate a fattori come occlusioni, ambiguità della profondità e condizioni di acquisizione non controllate, la stima tridimensionale della posa umana ha acquisito un ruolo centrale in numerosi ambiti applicativi come realtà aumentata, scenari di interazione uomo-macchina, scenari sportivi e di sicurezza. Questa tesi presenta un’analisi dei principali approcci a tale problema, distinguendo tra metodi basati su modelli parametrici e metodi basati su rappresentazione scheletrica. I primi utilizzano il modello SMPL per ricostruire una mesh tridimensionale del corpo a partire da un’immagine, ma sono più complessi da addestrare e sensibili al rumore dei dati. I secondi, invece, si basano su una rappresentazione scheletrica e prevedono direttamente le coordinate tridimensionali dei giunti a partire dai giunti bidimensionali rilevati nell'immagine. Questi ultimi sono più leggeri e perciò adatti a scenari real-time ma non consentono di ottenere informazioni dettagliate sulla morfologia del corpo e soffrono maggiormente i problemi di ambiguità della profondità. L’analisi considera sia scenari single-person, in cui l’obiettivo è stimare la posa di un singolo individuo, sia scenari multi-person, in cui occorre gestire occlusioni e associazioni corrette dei giunti tra più soggetti presenti nella stessa immagine.
2024
Three-Dimensional Human Pose Estimation from a Single Image: An Analysis of Methods
3D Pose
Pose estimation
Parametric Models
File in questo prodotto:
File Dimensione Formato  
Novkovic_Elena.pdf

Accesso riservato

Dimensione 2.51 MB
Formato Adobe PDF
2.51 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/92213