Tecniche di Deep Learning per Riconoscimento di Date in Immagini

In the current logistic landscape the automation of the product picking task is becoming widespread and memorizing the information of the handled products during this process is essential. For pharmaceutical or food products this translates to knowing the expiration date of the loaded entity, meaning that the presence of an automated process to recognize the expiration date of the products during the loading task is desirable. The task of detecting and recognizing the date is not an issue if the date is included inside a data matrix or if it's printed in a unified format, however if the case falls outside the ones mentioned achieving an accurate reading can become challenging. This is true for the recognition of expiration dates printed on pharmaceutical products in Italy. To solve the problem of reading a date from an image it is advantageous to divide it in three sub-tasks identified as: date detection, date format recognition, and date recognition. Date detection is the task of determining if a date is present in an image and determining its location providing a bounding box. The proposed solution implements a Faster R-CNN with ResNeXt-101-32x8d and a FPN extractor as a backbone to detect the expiration date region inside the image of the product acquired during the loading process. For this application a slower but more accurate detector is preferable, leading to the choice of Faster R-CNN since it is a reliable and robust two-steps detector. Faster R-CNN is also implemented for the sub-task of date detection and date format recognition. However in order to have a fair comparison with other object detection networks YOLOv8 has also been applied. In the second step a cropped image of each component of the date has been obtained and a OCR network can be applied to translate the images to strings of text providing the recognized date to the user. This last task can be identified as character recognition and as such Tesseract OCR and EasyOCR have been used to solve it. In this thesis is presented a solution to the date detection and recognition problems achieved by the application of deep learning techniques, with it is possible to obtain a date string in a unified format starting from a picture of a product containing a date printed on its surface regardless of writing format.

Nell'attuale mondo della logistica l'automatizzazione della fase di carico per l'immagazzinamento di prodotti è sempre più comune e per casi come quello di prodotti farmaceutici, o alimentari, conoscere la data di scadenza dei prodotti caricati è desiderabile. Nel caso di date stampate in formato unificato o se la data è inclusa in una data matrix il compito di localizzare e riconoscere la data non è complicato, ma se questo non è il caso può diventare problematico come lo è per le date di scadenza di prodotti farmaceutici in Italia. Per risolvere questo problema è vantaggioso suddividerlo in tre compiti identificati come: localizzazione della data, riconoscimento del formato della data, interpretazione della data. La localizzazione della data è il compito di determinare se una data è presente nell'immagine del prodotto e fornire la sua posizione e area con una bounding box. La soluzione proposta implementa l'algoritmo Faster R-CNN per identificare la regione appartenente alla data di scadenza all'interno dell 'immagine acquisita durante il caricamento del prodotto. Per l'applicazione prevista un localizzatore più lento ma più robusto è preferibile, questo ha portato alla scelta di Faster R-CNN in quanto è un affidabile two-steps detector. Faster R-CNN è stato utilizzato per adempiere ai compiti di localizzazione e riconoscimento del formato della data. Ma per avere un giusto confronto con diverse tecniche di localizzazione di oggetti anche la rete YOLOv8 è stata presa in considerazione e applicata. Il secondo passaggio della soluzione fornisce la sezione d'immagine appartenente ad ogni componente, l'applicazione di reti OCR permette di tradurre le immagini in stringhe contenenti il testo della data riconosciuta da fornire allo user. Questo problema può essere identificato come un problema di riconoscimento di caratteri perciò Tesseract OCR e EasyOCR sono stati applicati per risolverlo. In questa tesi viene presentata una soluzione ai problemi di riconoscimento e localizzazione di date usando tecniche deep learning, con essa è possibile ottenere una stringa rappresentante una data in formato unificato partendo dall'immagine di un prodotto con una data in un qualunque formato di stampa.