Un dataset italiano per l’analisi degli stereotipi di genere nei testi mediante Large Language Models

Il presente lavoro analizza un dataset italiano per lo studio degli stereotipi di genere nei testi mediante il confronto tra attribuzioni umane aggregate e output di tre Large Language Models (GPT, Gemini e DeepSeek). L’analisi si basa su punteggi continui di gender-score assegnati alle stesse sezioni testuali, consentendo un confronto quantitativo tra distribuzioni e un’analisi correlazionale dei pattern di attribuzione. I risultati evidenziano che i modelli non operano in uno spazio semantico distinto rispetto alla percezione umana, ma condividono un nucleo comune di associazioni. Le differenze emergono principalmente nella dispersione dei punteggi e nella soglia con cui le polarizzazioni vengono esplicitate: alcuni modelli mostrano una maggiore tendenza alla neutralizzazione in presenza di ambiguità, mentre altri esprimono più facilmente polarizzazioni in corrispondenza di segnali semanticamente connotati. L’analisi qualitativa dei casi di disallineamento individua pattern ricorrenti legati a dominio tematico, salienza lessicale e ambiguità strutturale. I risultati suggeriscono che la valutazione del bias nei Large Language Models richieda di considerare non solo la direzione delle attribuzioni, ma anche la calibrazione e l’intensità della loro espressione.

Un dataset italiano per l’analisi degli stereotipi di genere nei testi mediante Large Language Models

FAMULARI, ELISA

2025/2026

Abstract

Il presente lavoro analizza un dataset italiano per lo studio degli stereotipi di genere nei testi mediante il confronto tra attribuzioni umane aggregate e output di tre Large Language Models (GPT, Gemini e DeepSeek). L’analisi si basa su punteggi continui di gender-score assegnati alle stesse sezioni testuali, consentendo un confronto quantitativo tra distribuzioni e un’analisi correlazionale dei pattern di attribuzione. I risultati evidenziano che i modelli non operano in uno spazio semantico distinto rispetto alla percezione umana, ma condividono un nucleo comune di associazioni. Le differenze emergono principalmente nella dispersione dei punteggi e nella soglia con cui le polarizzazioni vengono esplicitate: alcuni modelli mostrano una maggiore tendenza alla neutralizzazione in presenza di ambiguità, mentre altri esprimono più facilmente polarizzazioni in corrispondenza di segnali semanticamente connotati. L’analisi qualitativa dei casi di disallineamento individua pattern ricorrenti legati a dominio tematico, salienza lessicale e ambiguità strutturale. I risultati suggeriscono che la valutazione del bias nei Large Language Models richieda di considerare non solo la direzione delle attribuzioni, ma anche la calibrazione e l’intensità della loro espressione.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Dipartimento di Ingegneria dell'Informazione - DEI
			
	Corso di studio
	
				INGEGNERIA DELL'INFORMAZIONE Laurea di Primo Livello (D.M. 270/2004)
			
	Anno Accademico
	
				2025
			
	Titolo inglese
	
				An Italian dataset for analyzing gender stereotypes in textual data using Large Language Models
			
	Parola chiave
	
				Large Language Model
Bias
Stereotipi di genere
Machine Learning
NLP
			
	Relatore
	
				RODA', ANTONIO
			
	Correlatore
	
				BADALONI, SILVANA
			
	Appare nelle tipologie:
	
				Lauree triennali

File in questo prodotto:

File	Dimensione	Formato
Famulari_Elisa.pdf accesso aperto Dimensione 626.19 kB Formato Adobe PDF Visualizza/Apri	626.19 kB	Adobe PDF	Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/104322