L'intelligenza artificiale e, in particolare, i modelli di linguaggio naturale (NLP), sono sempre più presenti nella nostra vita quotidiana e nei processi decisionali automatizzati. Tuttavia, questi sistemi non sono privi di criticità: riflettono, riproducono e talvolta amplificano i bias culturali, sociali e linguistici presenti nei dati con cui vengono addestrati. Questa tesi esplora l’origine e la natura dei bias nei modelli linguistici, approfondendo le tecnologie di NLP e deep learning, prestando particolare attenzione ai word embeddings, spesso responsabili della trasmissione di stereotipi di genere e razziali. Attraverso l’analisi di numerosi dataset tra cui WinoBias, GAP, BIOS, StereoSet e molti altri, si mettono in evidenza le tecniche utilizzate per identificare e mitigare i bias nei modelli. Nonostante i progressi nella creazione di dataset bilanciati e nelle strategie di debiasing, i risultati mostrano che nessuna soluzione è ancora completamente efficace. La tesi sottolinea l'importanza di un approccio critico e interdisciplinare nella progettazione di sistemi intelligenti, proponendo una riflessione sul ruolo dell'etica, della cultura e della rappresentatività nei processi tecnologici. Solo attraverso una maggiore consapevolezza e responsabilità nella selezione e gestione dei dati sarà possibile sviluppare modelli più equi e inclusivi.
Bias e pregiudizi nei modelli di linguaggio: analisi dei dataset e mitigazione
TREVISAN, GIULIA
2024/2025
Abstract
L'intelligenza artificiale e, in particolare, i modelli di linguaggio naturale (NLP), sono sempre più presenti nella nostra vita quotidiana e nei processi decisionali automatizzati. Tuttavia, questi sistemi non sono privi di criticità: riflettono, riproducono e talvolta amplificano i bias culturali, sociali e linguistici presenti nei dati con cui vengono addestrati. Questa tesi esplora l’origine e la natura dei bias nei modelli linguistici, approfondendo le tecnologie di NLP e deep learning, prestando particolare attenzione ai word embeddings, spesso responsabili della trasmissione di stereotipi di genere e razziali. Attraverso l’analisi di numerosi dataset tra cui WinoBias, GAP, BIOS, StereoSet e molti altri, si mettono in evidenza le tecniche utilizzate per identificare e mitigare i bias nei modelli. Nonostante i progressi nella creazione di dataset bilanciati e nelle strategie di debiasing, i risultati mostrano che nessuna soluzione è ancora completamente efficace. La tesi sottolinea l'importanza di un approccio critico e interdisciplinare nella progettazione di sistemi intelligenti, proponendo una riflessione sul ruolo dell'etica, della cultura e della rappresentatività nei processi tecnologici. Solo attraverso una maggiore consapevolezza e responsabilità nella selezione e gestione dei dati sarà possibile sviluppare modelli più equi e inclusivi.| File | Dimensione | Formato | |
|---|---|---|---|
|
Trevisan_Giulia.pdf
accesso aperto
Dimensione
6.84 MB
Formato
Adobe PDF
|
6.84 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/89719