Gli studi riguardanti problemi di comprensione del linguaggio naturale da parte di modelli ricompre un importante ruolo nell’ambito delle tecnologie digitali. In questo lavoro verranno affrontati dei possibili metodi e strumenti per analizzare tali problemi, con una maggiore attenzione al tema del bias di genere. Si prenderanno in considerazione dati digitali sotto forma testuale e si cercherà di ottenere dei modelli che abbiamo la capacità di comprendere il linguaggio naturale e la sua semantica per poi applicarli ad un eventuale studio riguardante in bias di genere all’interno del testo. Il principale strumento del natural language processing è il word embedding, ossia uno strumento che ha lo scopo di estrarre le informazioni semantiche e sintattiche da un testo, attraverso la trasformazione di quest’ultimo in uno spazio vettoriale, dove ogni parola è rappresentata da vettori di numeri naturali, i quali più si trovano tanto più vicini quanto ricorrono nello stesso spazio semantico. Questa idea si fonda sulla teoria della semantica distribuzionale, ossia che il lessico viene concepito come uno spazio vettoriale dove le parole sono separate da distanze che dipendono dal loro grado di similitudine. Si vedrà che esistono differenti modi per individuare il migliore modello, dipendentemente dall’obiettivo che ci si pone; si scoprirà che la dimensione dei dati utilizzati risulterà molto importante per costruire dei modelli in grado di cogliere la semantica del testo e si individueranno delle possibili tecniche per studiare il bias di genere all’interno dei dati.

Metodologie e strumenti per lo studio del bias di genere nei documenti di testo

RIPAMONTI, MATTEO
2021/2022

Abstract

Gli studi riguardanti problemi di comprensione del linguaggio naturale da parte di modelli ricompre un importante ruolo nell’ambito delle tecnologie digitali. In questo lavoro verranno affrontati dei possibili metodi e strumenti per analizzare tali problemi, con una maggiore attenzione al tema del bias di genere. Si prenderanno in considerazione dati digitali sotto forma testuale e si cercherà di ottenere dei modelli che abbiamo la capacità di comprendere il linguaggio naturale e la sua semantica per poi applicarli ad un eventuale studio riguardante in bias di genere all’interno del testo. Il principale strumento del natural language processing è il word embedding, ossia uno strumento che ha lo scopo di estrarre le informazioni semantiche e sintattiche da un testo, attraverso la trasformazione di quest’ultimo in uno spazio vettoriale, dove ogni parola è rappresentata da vettori di numeri naturali, i quali più si trovano tanto più vicini quanto ricorrono nello stesso spazio semantico. Questa idea si fonda sulla teoria della semantica distribuzionale, ossia che il lessico viene concepito come uno spazio vettoriale dove le parole sono separate da distanze che dipendono dal loro grado di similitudine. Si vedrà che esistono differenti modi per individuare il migliore modello, dipendentemente dall’obiettivo che ci si pone; si scoprirà che la dimensione dei dati utilizzati risulterà molto importante per costruire dei modelli in grado di cogliere la semantica del testo e si individueranno delle possibili tecniche per studiare il bias di genere all’interno dei dati.
2021
Methodologies and tools for the study of gender bias in text documents
Documenti di testo
Bias
Genere
Metodologie
File in questo prodotto:
File Dimensione Formato  
Ripamonti_Matteo.pdf

accesso aperto

Dimensione 838.75 kB
Formato Adobe PDF
838.75 kB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/35166