Valutazione di Algoritimi di Intelligenza Artificiale ASR

Artificial intelligence is increasingly prevalent in our daily lives, and given the unique nature of learning for these types of algorithms, it becomes necessary to have ways to evaluate them. This is essential to understand the scenarios in which errors occur and how to enhance the algorithm's learning. A specific type of artificial intelligence algorithm is ASR (Automatic Speech Recognition), which processes vocal input into readable text. This type of algorithm has a wide range of applications, but this document will focus on its application in transcribing legal proceedings and specifically on how to create an evaluation system that provides an accurate account of various errors and differences from the input. Currently, legal transcripts are still handwritten, resulting in a significant expenditure of time and resources. For these reasons, there is an effort to transition to the use of artificial intelligence. However, to leverage this technology effectively in this field, it is necessary to greatly improve the transcription accuracy from vocal to written form to minimize final text revisions. These documents cannot afford transcription errors, and vocal input often presents challenges that impact the accurate transcription of audio. Consequently, a robust evaluation system is necessary to enhance the generated output. This document will analyze the steps required during the internship period in creating an evaluation system for these algorithms, including encountered challenges and utilized tools.

L'intelligenza artificiale è sempre più presente nella nostra quotidianità e, data l'importanza dell'apprendimento di questo tipo di algoritmi, diventa necessario avere dei modi per valutare quest'ultimi, così da capire in quali casistiche vengono commessi errori e come migliorare l'apprendimento dell'algoritmo. Un tipo specifico di algoritmi di intelligenza artificiale raccoglie quelli di Automatic Speech Recognition (ASR), i quali svolgono il compito di processare un input vocale in testo leggibile. Questo tipo di algoritmi ha una vastissima gamma di utilizzi, ma questo documento si focalizzerà del come sia applicato nella trascrizione di verbali nei processi in tribunale e, nel concreto, di come può essere creato un sistema di valutazione che dia un resoconto preciso sui vari errori e differenze rispetto all'input. Oggigiorno infatti i verbali vengono ancora scritti a mano, con un conseguente grosso dispendio di tempo e risorse. Per questi motivi, si sta cercando di passare all'utilizzo dell'intelligenza artificiale. Ma per poter sfruttare questa tecnologia in questo campo è necessario che la precisione di trascrizione dal vocale allo scritto migliori molto, in modo da ridurre al minimo le revisioni del testo finale. Questi documenti non possono permettersi errori di trascrizione e l'input vocale è spesso pieno di problemi che influenzano la corretta trascrizione dell'audio. Di conseguenza, un buon sistema di valutazione è necessario per migliorare l'output generato. In questo documento si andranno ad analizzare i passaggi che si sono resi necessari durante il periodo di stage nella creazione di un sistema di valutazione per questo tipo di algoritmi, dei problemi incontrati e degli strumenti utilizzati.