Diversi studi evidenziano che l’accuratezza degli esseri umani nell’identificare la menzogna non è significativamente superiore alla probabilità di andare a caso (50%). Pertanto, nuovi studi si sono focalizzati sull’uso di tecniche di Machine Learning e Deep Learning al fine di raggiungere livelli di accuratezza superiori. Loconte et al. (2023b), in uno studio under review, hanno esplorato per la prima volta le prestazioni di un Large Language Model (LLM), nel caso di specie FLAN-T5, in un compito di classificazione applicato al contesto della lie detection. A tal scopo, gli autori hanno utilizzato la tecnica del fine-tuning, che consiste nell'ottimizzare i parametri di un LLM pre-addestrato su un compito specifico o su un dataset ad-hoc, migliorando notevolmente la capacità del LLM di generare risposte coerenti in relazione agli obiettivi predisposti. Una tecnica alternativa al fine-tuning che permette di migliorare l’allineamento tra le richieste dell’utente e le risposte di un LLM è quella del prompt-engineering, ovvero manipolare e cercare i prompt (i.e., le istruzioni) che garantiscono la migliore performance. All’interno delle più semplici e diffuse strategie di prompting rientrano: zero-shot prompting, quando la richiesta di un utente posta a un LLM è priva di informazioni circa il contesto specifico o priva di esempi, e la few-shot prompting, quando, la richiesta di un utente è seguita da pochi esempi su cui il LLM si ancora per fornire la sua risposta. In questo studio, l’obiettivo è quello di istruire due LLMs, in particolare FLAN-T5 e GPT-3.5, nel rilevamento della menzogna attraverso la tecnica del prompt-engineering. A tale scopo sono stati condotti tre esperimenti volti a testare diverse tipologie di prompt in un compito di classificazione della menzogna su tre dataset contenenti opinioni personali, ricordi autobiografici e intenzioni future. Nel primo esperimento, FLAN-T5 e GPT-3.5 sono stati testati utilizzando la tecnica zero-shot usando un prompt autogenerato da GPT-3.5. I risultati mostrano che sia FLAN-T5 che GPT-3.5 raggiungono livelli di accuratezza discreto solamente nel dataset delle opinioni personali, mentre non ottengono performance soddisfacenti negli altri due. Nel secondo esperimento si è cercato di migliorare l’accuratezza della performance di FLAN-T5 testando una strategia few-shot, ovvero utilizzando un prompt che contenesse un certo numero di esempi (inizialmente 5 e poi 10). Inoltre, è stato testato come l’uso di diverse parole chiave nell’output (“true/false”; “honest/dishonest”; “truthful/deceptive”) potesse inficiare l’accuratezza finale. Infine, nel terzo esperimento, considerando i risultati soddisfacenti ottenuti da GPT-3.5 con la strategia zero-shot, si è tentato di manipolare il contesto mediante l’utilizzo dell’impostazione personalizzata di GPT-3.5, nota come custom instruction.
Prompt-engineering per la rilevazione della menzogna usando FLANT-T5 e ChatGPT
ORSINI, ARIANNA
2022/2023
Abstract
Diversi studi evidenziano che l’accuratezza degli esseri umani nell’identificare la menzogna non è significativamente superiore alla probabilità di andare a caso (50%). Pertanto, nuovi studi si sono focalizzati sull’uso di tecniche di Machine Learning e Deep Learning al fine di raggiungere livelli di accuratezza superiori. Loconte et al. (2023b), in uno studio under review, hanno esplorato per la prima volta le prestazioni di un Large Language Model (LLM), nel caso di specie FLAN-T5, in un compito di classificazione applicato al contesto della lie detection. A tal scopo, gli autori hanno utilizzato la tecnica del fine-tuning, che consiste nell'ottimizzare i parametri di un LLM pre-addestrato su un compito specifico o su un dataset ad-hoc, migliorando notevolmente la capacità del LLM di generare risposte coerenti in relazione agli obiettivi predisposti. Una tecnica alternativa al fine-tuning che permette di migliorare l’allineamento tra le richieste dell’utente e le risposte di un LLM è quella del prompt-engineering, ovvero manipolare e cercare i prompt (i.e., le istruzioni) che garantiscono la migliore performance. All’interno delle più semplici e diffuse strategie di prompting rientrano: zero-shot prompting, quando la richiesta di un utente posta a un LLM è priva di informazioni circa il contesto specifico o priva di esempi, e la few-shot prompting, quando, la richiesta di un utente è seguita da pochi esempi su cui il LLM si ancora per fornire la sua risposta. In questo studio, l’obiettivo è quello di istruire due LLMs, in particolare FLAN-T5 e GPT-3.5, nel rilevamento della menzogna attraverso la tecnica del prompt-engineering. A tale scopo sono stati condotti tre esperimenti volti a testare diverse tipologie di prompt in un compito di classificazione della menzogna su tre dataset contenenti opinioni personali, ricordi autobiografici e intenzioni future. Nel primo esperimento, FLAN-T5 e GPT-3.5 sono stati testati utilizzando la tecnica zero-shot usando un prompt autogenerato da GPT-3.5. I risultati mostrano che sia FLAN-T5 che GPT-3.5 raggiungono livelli di accuratezza discreto solamente nel dataset delle opinioni personali, mentre non ottengono performance soddisfacenti negli altri due. Nel secondo esperimento si è cercato di migliorare l’accuratezza della performance di FLAN-T5 testando una strategia few-shot, ovvero utilizzando un prompt che contenesse un certo numero di esempi (inizialmente 5 e poi 10). Inoltre, è stato testato come l’uso di diverse parole chiave nell’output (“true/false”; “honest/dishonest”; “truthful/deceptive”) potesse inficiare l’accuratezza finale. Infine, nel terzo esperimento, considerando i risultati soddisfacenti ottenuti da GPT-3.5 con la strategia zero-shot, si è tentato di manipolare il contesto mediante l’utilizzo dell’impostazione personalizzata di GPT-3.5, nota come custom instruction.File | Dimensione | Formato | |
---|---|---|---|
Orsini_Arianna.pdf
accesso aperto
Dimensione
1.49 MB
Formato
Adobe PDF
|
1.49 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/57704