Metodologie e strumenti per lo studio del bias di genere nei documenti di testo

Gli studi riguardanti problemi di comprensione del linguaggio naturale da parte di modelli ricompre un importante ruolo nell’ambito delle tecnologie digitali. In questo lavoro verranno affrontati dei possibili metodi e strumenti per analizzare tali problemi, con una maggiore attenzione al tema del bias di genere. Si prenderanno in considerazione dati digitali sotto forma testuale e si cercherà di ottenere dei modelli che abbiamo la capacità di comprendere il linguaggio naturale e la sua semantica per poi applicarli ad un eventuale studio riguardante in bias di genere all’interno del testo. Il principale strumento del natural language processing è il word embedding, ossia uno strumento che ha lo scopo di estrarre le informazioni semantiche e sintattiche da un testo, attraverso la trasformazione di quest’ultimo in uno spazio vettoriale, dove ogni parola è rappresentata da vettori di numeri naturali, i quali più si trovano tanto più vicini quanto ricorrono nello stesso spazio semantico. Questa idea si fonda sulla teoria della semantica distribuzionale, ossia che il lessico viene concepito come uno spazio vettoriale dove le parole sono separate da distanze che dipendono dal loro grado di similitudine. Si vedrà che esistono differenti modi per individuare il migliore modello, dipendentemente dall’obiettivo che ci si pone; si scoprirà che la dimensione dei dati utilizzati risulterà molto importante per costruire dei modelli in grado di cogliere la semantica del testo e si individueranno delle possibili tecniche per studiare il bias di genere all’interno dei dati.

Metodologie e strumenti per lo studio del bias di genere nei documenti di testo

RIPAMONTI, MATTEO

2021/2022

Abstract

Gli studi riguardanti problemi di comprensione del linguaggio naturale da parte di modelli ricompre un importante ruolo nell’ambito delle tecnologie digitali. In questo lavoro verranno affrontati dei possibili metodi e strumenti per analizzare tali problemi, con una maggiore attenzione al tema del bias di genere. Si prenderanno in considerazione dati digitali sotto forma testuale e si cercherà di ottenere dei modelli che abbiamo la capacità di comprendere il linguaggio naturale e la sua semantica per poi applicarli ad un eventuale studio riguardante in bias di genere all’interno del testo. Il principale strumento del natural language processing è il word embedding, ossia uno strumento che ha lo scopo di estrarre le informazioni semantiche e sintattiche da un testo, attraverso la trasformazione di quest’ultimo in uno spazio vettoriale, dove ogni parola è rappresentata da vettori di numeri naturali, i quali più si trovano tanto più vicini quanto ricorrono nello stesso spazio semantico. Questa idea si fonda sulla teoria della semantica distribuzionale, ossia che il lessico viene concepito come uno spazio vettoriale dove le parole sono separate da distanze che dipendono dal loro grado di similitudine. Si vedrà che esistono differenti modi per individuare il migliore modello, dipendentemente dall’obiettivo che ci si pone; si scoprirà che la dimensione dei dati utilizzati risulterà molto importante per costruire dei modelli in grado di cogliere la semantica del testo e si individueranno delle possibili tecniche per studiare il bias di genere all’interno dei dati.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Dipartimento di Scienze Statistiche
			
	Corso di studio
	
				STATISTICA PER LE TECNOLOGIE E LE SCIENZE Laurea di Primo Livello (D.M. 270/2004)
			
	Anno Accademico
	
				2021
			
	Titolo inglese
	
				Methodologies and tools for the study of gender bias in text documents
			
	Parola chiave
	
				Documenti di testo
Bias
Genere
Metodologie
			
	Relatore
	
				MELUCCI, MASSIMO
			
	Appare nelle tipologie:
	
				Lauree triennali

File in questo prodotto:

File	Dimensione	Formato
Ripamonti_Matteo.pdf accesso aperto Dimensione 838.75 kB Formato Adobe PDF Visualizza/Apri	838.75 kB	Adobe PDF	Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/35166