Il presente documento descrive il lavoro svolto durante il periodo di stage, della durata di circa trecento ore, dal laureando Andrea Auletta presso l’azienda Azienda Siav S.p.A. Lo stage è stato collocato in un progetto più ampio che riguarda la progettazione e lo sviluppo di applicativi per l’interazione tramite linguaggio naturale tra utenti e Retrieval Augmented Language Model (RALM). L’obbietivo di questo stage è stato quello di migliorare un prototipo aziendale in maniera tale che potesse dare delle risposte di miglior qualità. Questo è stato possibile farlo studiando alcuni casi possibili di documenti che potrebbero essere messi a disposizione del RALM, convertendo vari elementi semantici (come le tabelle) in testo non strutturato e migliorando la qualità del chunking.

Sistema di estrazione di testo da documenti per RALM

AULETTA, ANDREA
2022/2023

Abstract

Il presente documento descrive il lavoro svolto durante il periodo di stage, della durata di circa trecento ore, dal laureando Andrea Auletta presso l’azienda Azienda Siav S.p.A. Lo stage è stato collocato in un progetto più ampio che riguarda la progettazione e lo sviluppo di applicativi per l’interazione tramite linguaggio naturale tra utenti e Retrieval Augmented Language Model (RALM). L’obbietivo di questo stage è stato quello di migliorare un prototipo aziendale in maniera tale che potesse dare delle risposte di miglior qualità. Questo è stato possibile farlo studiando alcuni casi possibili di documenti che potrebbero essere messi a disposizione del RALM, convertendo vari elementi semantici (come le tabelle) in testo non strutturato e migliorando la qualità del chunking.
2022
Text extraction system from documents for RALM
Estrazione di testo
RALM
question-answering
File in questo prodotto:
File Dimensione Formato  
Auletta_Andrea.pdf

accesso aperto

Dimensione 741.77 kB
Formato Adobe PDF
741.77 kB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/50217