Facial recognition algorithms and sound analysis are very widespread and find various applications. In the neonatal context, their use could provide useful indications about the state of comfort and discomfort of infants. Despite advances in face detection methods, sound classification, and techniques for extracting their main features, the recognition of emotions in infants is still a subject of research, due to the miniaturized facial structure, their facial features (different proportions from an adult's face, reduced surface area, presence of limited wrinkles and folds) and the minimal variations in the sounds produced during crying. This thesis aims to develop algorithms to classify the emotional state of infants by analyzing the characteristics of their facial structure and their cries. For the recognition of the comfort state through the analysis of facial expressions, two databases were used: the Infant COPE database with 204 images of infants (age: 18 hours - 3 days) and the Infant City Face database with 95 images (age: 0 - 12 months). Key facial areas according to the Neonatal Facial Coding System (NFCS), namely eyes, mouth, and eyebrows, were selected. Three texture descriptors - Local Binary Pattern (LBP), Local Ternary Pattern (LTP), and Radon Barcode (RBC) - were then applied to these areas. For classification, a support vector machine (SVM) was used utilizing the k-fold technique (k = 20) and optimizing computational times. The following evaluation metrics were used to analyze performance: confusion matrix, precision, recall, and F1 score. The LBP+SVM and RBC+SVM combinations achieve a median balanced accuracy of 80% and 70% respectively, surpassing LTP+SVM. LBP+SVM appears to have the most reliable performance among the three algorithms. For the recognition of the comfort state through the analysis of sound derived from infants' crying, the Infant COPE sound database was used, including 103 distinct cries. After filtering the incoming audio signals with a low-pass filter (cut-off frequency: 3000 Hz) and a high-pass filter (cut-off frequency: 100 Hz) of 4th order, the Mel Frequency Cepstral Coefficients (MFCC) reflecting the characteristics of the signal were extracted. Subsequently, a probabilistic neural network (PNN), trained and tested with two different configurations, and an SVM classifier were used to classify the emotional state of the infant. The same evaluation metrics used for the recognition of the comfort state through facial expression analysis were applied to these data. The combined MFCC+PNN approach (103 observations, 2 states) achieves an accuracy and a median balanced accuracy of 60% and 50% respectively. In general, the MFCC+PNN model (103, 2) appears to show relatively acceptable performance in most situations compared to MFCC+PNN (104, 2) and MFCC+SVM. Facial recognition and sound analysis techniques can provide promising results for classifying the emotional state in infants. This research highlights the importance of further developing algorithms sensitive to the particularities of infants and opens up further investigations to improve the reliability and accuracy of such technologies in neonatal contexts.

Gli algoritmi di riconoscimento facciale e analisi del suono sono molto diffusi e trovano diverse applicazioni. Nel contesto neonatale, il loro utilizzo potrebbe fornire utili indicazioni sullo stato di comfort e discomfort dei neonati. Nonostante i progressi nei metodi di rilevamento dei volti, della classificazione del suono e nelle tecniche di estrazione delle loro principali caratteristiche, il riconoscimento delle emozioni nei neonati è ancora oggetto di ricerca, a causa della struttura facciale miniaturizzata, delle loro caratteristiche del viso (proporzioni differenti dal viso dell’adulto, superficie ridotta, presenza di rughe e solchi limitati) e delle minime variazioni nei suoni prodotti durante il pianto. Questa tesi si propone di sviluppare degli algoritmi per classificare lo stato emotivo dei neonati, analizzando le caratteristiche della loro struttura facciale e dei loro pianti. Per il riconoscimento dello stato di comfort tramite l’analisi di espressioni facciali sono stati utilizzati due database, il database Infant COPE con 204 immagini di neonati (età: 18 ore - 3 giorni) e il database Infant City Face con 95 immagini (età: 0 - 12 mesi). Sono state selezionate delle zone chiave del volto secondo la scala Neonatal Facial Coding System (NFCS), ossia occhi, bocca e sopracciglia. Tre descrittori di texture - Local Binary Pattern (LBP), Local Ternary Pattern (LTP) e Radon Barcode (RBC) - sono stati applicati poi a queste zone. Per la classificazione è stata utilizzata una macchina a vettori di supporto (SVM) sfruttando la tecnica k-fold (k = 20) e ottimizzando i tempi computazionali. Per analizzare le prestazioni sono state utilizzate le seguenti metriche di valutazione: matrice di confusione, precisione, recall e F1 score. Le combinazioni LBP+SVM e RBC+SVM raggiungono un'accuratezza bilanciata mediana dell’80% e del 70% rispettivamente, superando LTP+SVM. LBP+SVM sembra avere le performance più affidabile tra i tre algoritmi. Per il riconoscimento dello stato di comfort tramite l'analisi del suono derivante dal pianto dei neonati è stato impiegato il database Infant COPE sound, includendo 103 distinti pianti. Dopo aver filtrato i segnali audio in ingresso con un filtro passa-basso (frequenza di taglio: 3000 Hz) e un filtro passa-alto (frequenza di taglio: 100 Hz) di 4° ordine, sono stati estratti i Mel Frequency Cepstral Coefficients (MFCC) che riflettono le caratteristiche del segnale. Successivamente, una rete neurale probabilistica (PNN), addestrata e testata con due diverse configurazioni, e un classificatore SVM sono stati utilizzati per classificare lo stato emotivo del neonato. Le stesse metriche di valutazione usate per il riconoscimento dello stato di comfort tramite l’analisi di espressioni facciali sono state applicate a questi dati. L'approccio combinato MFCC+PNN (103 osservazioni, 2 stati) raggiunge un'accuratezza e un’accuratezza bilanciata mediana del 60% e del 50% rispettivamente. In generale, il modello MFCC+PNN (103, 2) sembra mostrare performance relativamente accettabili nella maggior parte delle situazioni rispetto a MFCC+PNN (104, 2) e MFCC+SVM. Le tecniche di riconoscimento facciale e analisi del suono possono fornire risultati promettenti per la classificazione dello stato emotivo nei neonati. Questa ricerca sottolinea l'importanza di approfondire lo sviluppo di algoritmi sensibili alle particolarità dei neonati e apre ad ulteriori indagini per migliorare l'affidabilità e la precisione di tali tecnologie in contesti neonatali.

Identificazione e classificazione del comfort del neonato mediante l'elaborazione di immagini e suoni

BRINO, VALENTINA
2023/2024

Abstract

Facial recognition algorithms and sound analysis are very widespread and find various applications. In the neonatal context, their use could provide useful indications about the state of comfort and discomfort of infants. Despite advances in face detection methods, sound classification, and techniques for extracting their main features, the recognition of emotions in infants is still a subject of research, due to the miniaturized facial structure, their facial features (different proportions from an adult's face, reduced surface area, presence of limited wrinkles and folds) and the minimal variations in the sounds produced during crying. This thesis aims to develop algorithms to classify the emotional state of infants by analyzing the characteristics of their facial structure and their cries. For the recognition of the comfort state through the analysis of facial expressions, two databases were used: the Infant COPE database with 204 images of infants (age: 18 hours - 3 days) and the Infant City Face database with 95 images (age: 0 - 12 months). Key facial areas according to the Neonatal Facial Coding System (NFCS), namely eyes, mouth, and eyebrows, were selected. Three texture descriptors - Local Binary Pattern (LBP), Local Ternary Pattern (LTP), and Radon Barcode (RBC) - were then applied to these areas. For classification, a support vector machine (SVM) was used utilizing the k-fold technique (k = 20) and optimizing computational times. The following evaluation metrics were used to analyze performance: confusion matrix, precision, recall, and F1 score. The LBP+SVM and RBC+SVM combinations achieve a median balanced accuracy of 80% and 70% respectively, surpassing LTP+SVM. LBP+SVM appears to have the most reliable performance among the three algorithms. For the recognition of the comfort state through the analysis of sound derived from infants' crying, the Infant COPE sound database was used, including 103 distinct cries. After filtering the incoming audio signals with a low-pass filter (cut-off frequency: 3000 Hz) and a high-pass filter (cut-off frequency: 100 Hz) of 4th order, the Mel Frequency Cepstral Coefficients (MFCC) reflecting the characteristics of the signal were extracted. Subsequently, a probabilistic neural network (PNN), trained and tested with two different configurations, and an SVM classifier were used to classify the emotional state of the infant. The same evaluation metrics used for the recognition of the comfort state through facial expression analysis were applied to these data. The combined MFCC+PNN approach (103 observations, 2 states) achieves an accuracy and a median balanced accuracy of 60% and 50% respectively. In general, the MFCC+PNN model (103, 2) appears to show relatively acceptable performance in most situations compared to MFCC+PNN (104, 2) and MFCC+SVM. Facial recognition and sound analysis techniques can provide promising results for classifying the emotional state in infants. This research highlights the importance of further developing algorithms sensitive to the particularities of infants and opens up further investigations to improve the reliability and accuracy of such technologies in neonatal contexts.
2023
Identification and classification of neonatal comfort using image and sound processing
Gli algoritmi di riconoscimento facciale e analisi del suono sono molto diffusi e trovano diverse applicazioni. Nel contesto neonatale, il loro utilizzo potrebbe fornire utili indicazioni sullo stato di comfort e discomfort dei neonati. Nonostante i progressi nei metodi di rilevamento dei volti, della classificazione del suono e nelle tecniche di estrazione delle loro principali caratteristiche, il riconoscimento delle emozioni nei neonati è ancora oggetto di ricerca, a causa della struttura facciale miniaturizzata, delle loro caratteristiche del viso (proporzioni differenti dal viso dell’adulto, superficie ridotta, presenza di rughe e solchi limitati) e delle minime variazioni nei suoni prodotti durante il pianto. Questa tesi si propone di sviluppare degli algoritmi per classificare lo stato emotivo dei neonati, analizzando le caratteristiche della loro struttura facciale e dei loro pianti. Per il riconoscimento dello stato di comfort tramite l’analisi di espressioni facciali sono stati utilizzati due database, il database Infant COPE con 204 immagini di neonati (età: 18 ore - 3 giorni) e il database Infant City Face con 95 immagini (età: 0 - 12 mesi). Sono state selezionate delle zone chiave del volto secondo la scala Neonatal Facial Coding System (NFCS), ossia occhi, bocca e sopracciglia. Tre descrittori di texture - Local Binary Pattern (LBP), Local Ternary Pattern (LTP) e Radon Barcode (RBC) - sono stati applicati poi a queste zone. Per la classificazione è stata utilizzata una macchina a vettori di supporto (SVM) sfruttando la tecnica k-fold (k = 20) e ottimizzando i tempi computazionali. Per analizzare le prestazioni sono state utilizzate le seguenti metriche di valutazione: matrice di confusione, precisione, recall e F1 score. Le combinazioni LBP+SVM e RBC+SVM raggiungono un'accuratezza bilanciata mediana dell’80% e del 70% rispettivamente, superando LTP+SVM. LBP+SVM sembra avere le performance più affidabile tra i tre algoritmi. Per il riconoscimento dello stato di comfort tramite l'analisi del suono derivante dal pianto dei neonati è stato impiegato il database Infant COPE sound, includendo 103 distinti pianti. Dopo aver filtrato i segnali audio in ingresso con un filtro passa-basso (frequenza di taglio: 3000 Hz) e un filtro passa-alto (frequenza di taglio: 100 Hz) di 4° ordine, sono stati estratti i Mel Frequency Cepstral Coefficients (MFCC) che riflettono le caratteristiche del segnale. Successivamente, una rete neurale probabilistica (PNN), addestrata e testata con due diverse configurazioni, e un classificatore SVM sono stati utilizzati per classificare lo stato emotivo del neonato. Le stesse metriche di valutazione usate per il riconoscimento dello stato di comfort tramite l’analisi di espressioni facciali sono state applicate a questi dati. L'approccio combinato MFCC+PNN (103 osservazioni, 2 stati) raggiunge un'accuratezza e un’accuratezza bilanciata mediana del 60% e del 50% rispettivamente. In generale, il modello MFCC+PNN (103, 2) sembra mostrare performance relativamente accettabili nella maggior parte delle situazioni rispetto a MFCC+PNN (104, 2) e MFCC+SVM. Le tecniche di riconoscimento facciale e analisi del suono possono fornire risultati promettenti per la classificazione dello stato emotivo nei neonati. Questa ricerca sottolinea l'importanza di approfondire lo sviluppo di algoritmi sensibili alle particolarità dei neonati e apre ad ulteriori indagini per migliorare l'affidabilità e la precisione di tali tecnologie in contesti neonatali.
Image processing
Sound processing
SVM classifier
PNN classifier
File in questo prodotto:
File Dimensione Formato  
Brino_Valentina.pdf

accesso riservato

Dimensione 3.86 MB
Formato Adobe PDF
3.86 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/64930