Computer Vision per la stima automatizzata della distanza nelle interazioni genitore-figlio

The following elaborate was born from an interdisciplinary project, started from a collaboration between the Department of Psychology of Development and Socializing and the Department of Mathematics of the University of Padua, which objective is to implement a series of techniques and Computer Vision’s models to support the field of psychology that takes care of the assessment of the parent competences and the quality of parent-child relationship in contest of high and low risk. The final scope of the project is to simplify the activity of professional psychologist in the analysis of their patients, through techniques and Computer Vision’s model which allow to automatise, speeding up and maximize the type of activity required. In particular, the study presented into the current work examines the quality of the parent-child interactions, usually operationalized by expert coders and created through the counting, classification and coding of the interactive behaviours that parent and child put in place during videotaped activity sessions. This procedure is based on specific observational grids and require sometimes, both in terms of training and in terms of the actual coding procedures for the human coder. In order to overcome this cost, the possible artificial intelligence tasks have been identified which would allow to obtain the most important information to understand the situation between subjects, thus automating the study and research phase by psychologists. Specifically, it was decided to focus on the task of the spatial distance estimation between subjects, an aspect which, from a psychological point of view, is of particular importance in determining the quality of the relationship between adult and child. In this regard, fragments of videos of adult-child interactions shot in free play situations were collected starting from two different groups of subjects, a first high-risk group, extracted from a clinical context, and a second low-risk group. risk, extracted from the normative population. These videos have been reduced in length to be more usable for this project. Features were extracted from them through two pre-trained models of deep neural networks: the first for estimating the 2D pose from which to obtain the position of the subjects in the frames, while the second for estimating the depth to obtain the third spatial coordinate of the subjects in the frames. A dataset was created thanks to these data and the distance labelling work, carried out by creating a qualitative scale of the distance between the subjects. This dataset was then divided by type of video, specifically by type of group (high and low risk), performed a phase of data pre-processing and accurate subdivision into train and test set. Machine learning and deep learning models were then created to obtain the best performance on these data. In the first part of the paper the theoretical applicative rationale and the objectives of the project will be described. Subsequently, the various implementation phases of the identified task will be presented, with related problems and choices made. The final part deals with the results obtained possible use, observations and considerations.

Il seguente elaborato nasce da un progetto interdisciplinare, avviato dalla collaborazione tra il Dipartimento di Psicologia dello Sviluppo e della Socializzazione e il Dipartimento di Matematica dell’Università degli studi di Padova, che ha l'obiettivo di implementare una serie di tecniche e modelli di Computer Vision a supporto del ramo della psicologia che si occupa della valutazione delle competenze genitoriali e della qualità della relazione adulto-bambino in contesti ad alto e basso rischio. Scopo finale del progetto è quello di semplificare l'attività di esperti psicologi nell'analisi dei lo-ro pazienti, attraverso l’ausilio di tecniche e modelli di Computer Vision che permettano di automatizzare, velocizzare e massimizzare il tipo di attività richiesta. Nello specifico, lo studio presentato all’interno del presente lavoro prende in esame la qualità delle interazioni tra genitore e figlio, usualmente operazionalizzata da codificatori esperti e formati attraverso il conteggio, la classificazione e la codifica dei comportamenti interattivi che adulto e bambino mettono in atto durante sessioni di attività videoregistrate. Tale procedura si basa su griglie osservative specifiche e richiede diverso tempo, sia in termini di formazione, che in termini di procedure di codifica vera e propria al codificatore umano. Al fine di ovviare a tale costo, sono stati identificati i possibili task di intelligenza artificiale che permetterebbero di ottenere le informazioni più importanti per comprendere la situazione tra soggetti, automatizzando quindi la fase di studio e di ricerca da parte degli psicologi. Nello specifico, si è deciso di concentrarsi sul task di stima della distanza spaziale tra i soggetti, un aspetto che, dal punto di vista psicologico, riveste particolare importanza nel determinare la qualità della relazione tra adulto e bambino. A tal proposito sono stati raccolti frammenti di video di interazioni adulto-bambino riprese in situazioni di gioco libero a partire da due diversi gruppi di soggetti, un primo gruppo ad alto rischio, estratto da un contesto clinico, ed un secondo gruppo a basso rischio, estratto a partire dalla popolazione normativa. Questi video sono stati ridotti in lunghezza per essere maggiormente fruibili per tale progetto. Da es-si sono state estratte delle features attraverso due modelli pre addestrati di reti neurali profonde: il primo per la stima della posa 2d da cui ricavare la posizione dei soggetti nei frame, mentre il secondo per la stima della profondità per ricavare la terza coordinata spaziale dei soggetti nei frame. Grazie a questi dati e al lavoro di labelling delle distanze, svolto creando una scala qualitativa della distanza tra i soggetti, è stato creato un dataset. Questo dataset è poi stato suddiviso per tipologia di video, ovvero per tipologia di gruppo (ad alto e basso rischio), effettuata una fase di pre-processing dei dati e di suddivisione accurata in train e test set. Sono stati quindi creati dei modelli di machine learning e di deep learning per ottenere le migliori performance su questi dati. Nella prima parte dell'elaborato saranno descritti il razionale teorico-applicativo e gli obiettivi del progetto. Successivamente saranno presentate le diverse fasi di implementazione del task identificato, con annessi problemi e scelte compiute. La parte finale tratta dei risultati ottenuti, possibilità di impiego, osservazioni e considerazioni.