La presente tesi descrive l’attività di sviluppo svolta durante il tirocinio presso l’azienda Ispiro.tech Srl, finalizzata all’integrazione di un sistema di riconoscimento ottico dei caratteri (OCR) all'interno di una WebApp esistente. L’obiettivo del progetto è stato quello di automatizzare l’estrazione di testo da certificazioni PDF, migliorando l’efficienza nella gestione documentale aziendale. La WebApp è stata sviluppata utilizzando NestJS per il Back-End e Angular per il Front-End, due tecnologie che garantiscono modularità, scalabilità e facilità di manutenzione. NestJS ha consentito la gestione delle API per l’interazione con servizi esterni, mentre Angular ha permesso la creazione di un’interfaccia utente dinamica e reattiva. Dopo un’analisi comparativa delle possibili soluzioni OCR, si è scelto di adottare AWS Textract per le sue elevate prestazioni nell’estrazione di testo e strutture complesse da documenti PDF. Inizialmente era stata valutata anche l’integrazione di un modello AI basato su LLaMA tramite Ollama, ma i costi e la complessità di sviluppo hanno reso preferibile una soluzione già pronta e scalabile come Textract. La tesi affronta inoltre il tema dell’importanza crescente dell’intelligenza artificiale nel mondo del lavoro, con particolare attenzione alle applicazioni nel campo della gestione documentale. Si discutono i benefici dell’automazione di processi ripetitivi e le prospettive future per l’integrazione di sistemi AI più avanzati.

Implementazione di un Sistema OCR in una Webapp con NestJS, Angular e AWS Textract ​

ZOLLA, GABRIELE
2024/2025

Abstract

La presente tesi descrive l’attività di sviluppo svolta durante il tirocinio presso l’azienda Ispiro.tech Srl, finalizzata all’integrazione di un sistema di riconoscimento ottico dei caratteri (OCR) all'interno di una WebApp esistente. L’obiettivo del progetto è stato quello di automatizzare l’estrazione di testo da certificazioni PDF, migliorando l’efficienza nella gestione documentale aziendale. La WebApp è stata sviluppata utilizzando NestJS per il Back-End e Angular per il Front-End, due tecnologie che garantiscono modularità, scalabilità e facilità di manutenzione. NestJS ha consentito la gestione delle API per l’interazione con servizi esterni, mentre Angular ha permesso la creazione di un’interfaccia utente dinamica e reattiva. Dopo un’analisi comparativa delle possibili soluzioni OCR, si è scelto di adottare AWS Textract per le sue elevate prestazioni nell’estrazione di testo e strutture complesse da documenti PDF. Inizialmente era stata valutata anche l’integrazione di un modello AI basato su LLaMA tramite Ollama, ma i costi e la complessità di sviluppo hanno reso preferibile una soluzione già pronta e scalabile come Textract. La tesi affronta inoltre il tema dell’importanza crescente dell’intelligenza artificiale nel mondo del lavoro, con particolare attenzione alle applicazioni nel campo della gestione documentale. Si discutono i benefici dell’automazione di processi ripetitivi e le prospettive future per l’integrazione di sistemi AI più avanzati.
2024
Implementing an OCR System in a WebApp with NestJS, Angular and AWS Textract ​
OCR
Webapp
NestJS
Angular
AWS Textract
File in questo prodotto:
File Dimensione Formato  
Zolla_Gabriele.pdf

accesso aperto

Dimensione 2.1 MB
Formato Adobe PDF
2.1 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/89687