Il presente elaborato mira a valutare la robustezza di un LLM pre-addestrato per il riconoscimento della menzogna (Loconte, Russo e Capuozzo, 2023) tramite l’utilizzo di un nuovo campione di dati, composto da resoconti veritieri e menzogneri circa eventi autobiografici, opinioni personali ed intenzioni future. Inoltre, tramite questa ricerca, è stata indagata la capacità dei partecipanti di ingannare o convincere il modello di intelligenza artificiale, ovvero la loro capacità di creare degli esempi adversarial. Infine, sono state individuate le strategie verbali utilizzate dai partecipanti per rispondere genuinamente o per mentire al fine di essere creduti dal LLM. Lo studio di riferimento (Loconte et al., 2023) attraverso cui il LLM è stato addestrato per il riconoscimento della menzogna verbale, tramite la tecnica del fine-tuning, ha rilevato un livello di accuratezza generale del modello pari all’80%, mentre nelle tre diverse tipologie di testo ha ottenuto un’accuratezza del 79,87% per l’evento autobiografico, del 82,72% per l’opinione personale, e del 72,25% nell’intenzione futura. Questi risultati sono coerenti con quelli dell’esperimento presente, mostrando che il LLM ha le migliori performance nei testi inerenti agli eventi autobiografici (70%) e alle opinioni personali (71%), mentre le peggiori riguardano la classificazione delle intenzioni future (60%). Il compito di convincere il LLM circa la bontà delle proprie dichiarazioni è risultato più semplice per i soggetti nella condizione truth tellers rispetto a quelli nella condizione lie tellers. Oltre alla condizione sperimentale di appartenenza, sono risultati statisticamente significativi l’influenza della variabile età dei partecipanti, per cui è risultato più semplice raggiungere l’obiettivo al diminuire dell’età, e il livello di inglese

Possiamo ingannare un Lie Detector basato sull'intelligenza artificiale?

SEGANTINI, MARIA
2023/2024

Abstract

Il presente elaborato mira a valutare la robustezza di un LLM pre-addestrato per il riconoscimento della menzogna (Loconte, Russo e Capuozzo, 2023) tramite l’utilizzo di un nuovo campione di dati, composto da resoconti veritieri e menzogneri circa eventi autobiografici, opinioni personali ed intenzioni future. Inoltre, tramite questa ricerca, è stata indagata la capacità dei partecipanti di ingannare o convincere il modello di intelligenza artificiale, ovvero la loro capacità di creare degli esempi adversarial. Infine, sono state individuate le strategie verbali utilizzate dai partecipanti per rispondere genuinamente o per mentire al fine di essere creduti dal LLM. Lo studio di riferimento (Loconte et al., 2023) attraverso cui il LLM è stato addestrato per il riconoscimento della menzogna verbale, tramite la tecnica del fine-tuning, ha rilevato un livello di accuratezza generale del modello pari all’80%, mentre nelle tre diverse tipologie di testo ha ottenuto un’accuratezza del 79,87% per l’evento autobiografico, del 82,72% per l’opinione personale, e del 72,25% nell’intenzione futura. Questi risultati sono coerenti con quelli dell’esperimento presente, mostrando che il LLM ha le migliori performance nei testi inerenti agli eventi autobiografici (70%) e alle opinioni personali (71%), mentre le peggiori riguardano la classificazione delle intenzioni future (60%). Il compito di convincere il LLM circa la bontà delle proprie dichiarazioni è risultato più semplice per i soggetti nella condizione truth tellers rispetto a quelli nella condizione lie tellers. Oltre alla condizione sperimentale di appartenenza, sono risultati statisticamente significativi l’influenza della variabile età dei partecipanti, per cui è risultato più semplice raggiungere l’obiettivo al diminuire dell’età, e il livello di inglese
2023
Can humans fool an AI-based Lie Detector?
verbal lie detection
adversarial learning
AI
strategie mentitori
File in questo prodotto:
File Dimensione Formato  
Segantini_Maria.pdf

accesso riservato

Dimensione 2.65 MB
Formato Adobe PDF
2.65 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/75316