Ricostruzione 3D del volto umano da video: dalla nuvola di punti alla mesh

Three-dimensional reconstruction of the human face from video sequences has become an increasingly relevant topic in the field of Computer Vision, due to its wide range of applications, including biometric recognition systems, the creation of digital avatars for virtual and augmented reality environments, human–computer interaction systems, driver and user state monitoring in the automotive domain, and the development of human digital twins. In this thesis, a multiview reconstruction approach based on photogrammetric techniques is investigated and implemented, with the goal of obtaining a detailed three-dimensional representation of the human face from RGB images extracted from video sequences. The reconstruction process starts with the selection of a set of representative frames, chosen to provide sufficient facial coverage and viewpoint diversity. A Structure from Motion pipeline is then employed to estimate camera poses and generate a sparse point cloud, which serves as an initial approximation of the three-dimensional scene structure. This initial representation is further refined through Multi-View Stereo techniques, which increase point cloud density and enhance geometric detail. The resulting dense point cloud provides the basis for the reconstruction of the three-dimensional facial surface, enabling the generation of a continuous and coherent model. Particular attention is devoted to the selection of software tools, the tuning of reconstruction parameters, and the overall execution setup. These aspects are examined in terms of their impact on both the geometric quality of the final model and computational cost, highlighting the trade-offs between accuracy, robustness, and computational complexity of the proposed approach.

La ricostruzione tridimensionale del volto umano a partire da sequenze video è un tema di crescente interesse nell’ambito della Computer Vision, grazie alle sue applicazioni in numerosi settori, tra cui i sistemi di riconoscimento biometrico, la generazione di avatar digitali per ambienti di realtà virtuale e aumentata, i sistemi di interazione uomo–macchina, il monitoraggio dello stato dell’utente in ambito automotive e lo sviluppo di modelli digitali dell’essere umano (human digital twin). In questo lavoro di tesi viene analizzata e implementata una procedura di ricostruzione multivista basata su tecniche fotogrammetriche, con l’obiettivo di ottenere una rappresentazione tridimensionale dettagliata del volto umano a partire da immagini RGB estratte da sequenze video. Il processo di ricostruzione prende avvio dalla selezione di un insieme di frame significativi, scelti in modo da garantire un’adeguata copertura del volto e una sufficiente variazione di punti di vista. Successivamente, viene applicata una pipeline di Structure from Motion per stimare le pose delle camere e generare una nuvola di punti sparsa, che fornisce una prima approssimazione della struttura tridimensionale della scena. A partire da questa rappresentazione iniziale, la ricostruzione viene raffinata mediante tecniche di Multi-View Stereo, finalizzate alla densificazione della nuvola di punti e al miglioramento del dettaglio geometrico. La nuvola di punti densa ottenuta costituisce la base per la successiva fase di ricostruzione della superficie tridimensionale del volto, permettendo di ottenere un modello continuo e coerente. Particolare attenzione è stata dedicata alla scelta degli strumenti software impiegati, alla configurazione dei parametri di ricostruzione e alla gestione dell’ambiente di esecuzione. Tali aspetti sono stati analizzati valutandone l’impatto sia sulla qualità geometrica del modello finale sia sui tempi di calcolo, evidenziando i compromessi tra accuratezza, robustezza e complessità computazionale della procedura proposta.