Human pose estimation mediante modelli convoluzionali e transformer in edge-devices

La human pose estimation si occupa di definire la posa delle persone presenti in immagini o video. Questo task della computer vision può essere utilizzato in molteplici applicazioni, come ad esempio il riconoscimento del movimento, l’assistenza medico sportiva, la guida autonoma. La risoluzione di questo task presenta alcune problematiche come le occlusioni e la varietà di pose e individui da tracciare. Negli ultimi anni si sono diffusi modelli di deep learning, che si sono dimostrati più abili delle tecniche precedentemente usate nella gestione di questi problemi; le reti neurali in questione, infatti, sono state progettate in modo da raggiungere la massima accuratezza possibile. Questi modelli sono computazionalmente pesanti e possono essere utilizzati in applicazioni reali solamente in presenza di un hardware adeguato; tuttavia, in alcuni contesti è preferibile servirsi di edge-devices, per rendere le applicazioni più accessibili e sicure. Gli edge-devices sono dispositivi caratterizzati da risorse limitate, come ad esempio una ridotta area di memoria e una modesta capacità computazionale; per questo necessitano di reti più leggere. Questa tesi compara alcuni modelli di deep learning progettati con lo scopo di adattare il processo di predizione della human pose estimation al contesto degli edge-devices; in particolare verranno trattati alcuni modelli che si possono classificare come convoluzionali o transformer. Per entrambe le categorie sono state esaminate le architetture che sono rappresentative dei principali approcci per ridurre efficacemente la dimensione e la complessità delle reti neurali.

Human pose estimation mediante modelli convoluzionali e transformer in edge-devices

MONDIN, SILVIA

2023/2024

Abstract

La human pose estimation si occupa di definire la posa delle persone presenti in immagini o video. Questo task della computer vision può essere utilizzato in molteplici applicazioni, come ad esempio il riconoscimento del movimento, l’assistenza medico sportiva, la guida autonoma. La risoluzione di questo task presenta alcune problematiche come le occlusioni e la varietà di pose e individui da tracciare. Negli ultimi anni si sono diffusi modelli di deep learning, che si sono dimostrati più abili delle tecniche precedentemente usate nella gestione di questi problemi; le reti neurali in questione, infatti, sono state progettate in modo da raggiungere la massima accuratezza possibile. Questi modelli sono computazionalmente pesanti e possono essere utilizzati in applicazioni reali solamente in presenza di un hardware adeguato; tuttavia, in alcuni contesti è preferibile servirsi di edge-devices, per rendere le applicazioni più accessibili e sicure. Gli edge-devices sono dispositivi caratterizzati da risorse limitate, come ad esempio una ridotta area di memoria e una modesta capacità computazionale; per questo necessitano di reti più leggere. Questa tesi compara alcuni modelli di deep learning progettati con lo scopo di adattare il processo di predizione della human pose estimation al contesto degli edge-devices; in particolare verranno trattati alcuni modelli che si possono classificare come convoluzionali o transformer. Per entrambe le categorie sono state esaminate le architetture che sono rappresentative dei principali approcci per ridurre efficacemente la dimensione e la complessità delle reti neurali.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Dipartimento di Ingegneria dell'Informazione - DEI
			
	Corso di studio
	
				INGEGNERIA INFORMATICA Laurea di Primo Livello (D.M. 270/2004)
			
	Anno Accademico
	
				2023
			
	Titolo inglese
	
				Human pose estimation using convolutional and transformer models in edge-devices
			
	Parola chiave
	
				Pose estimation
CNN
Transformer
Edge-devices
			
	Relatore
	
				GHIDONI, STEFANO
			
	Appare nelle tipologie:
	
				Lauree triennali

File in questo prodotto:

File	Dimensione	Formato
Mondin_Silvia.pdf accesso riservato Dimensione 3.22 MB Formato Adobe PDF	3.22 MB	Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/67648