Gli studi riguardanti problemi di comprensione del linguaggio naturale da parte di modelli ricompre un importante ruolo nell’ambito delle tecnologie digitali. In questo lavoro verranno affrontati dei possibili metodi e strumenti per analizzare tali problemi, con una maggiore attenzione al tema del bias di genere. Si prenderanno in considerazione dati digitali sotto forma testuale e si cercherà di ottenere dei modelli che abbiamo la capacità di comprendere il linguaggio naturale e la sua semantica per poi applicarli ad un eventuale studio riguardante in bias di genere all’interno del testo. Il principale strumento del natural language processing è il word embedding, ossia uno strumento che ha lo scopo di estrarre le informazioni semantiche e sintattiche da un testo, attraverso la trasformazione di quest’ultimo in uno spazio vettoriale, dove ogni parola è rappresentata da vettori di numeri naturali, i quali più si trovano tanto più vicini quanto ricorrono nello stesso spazio semantico. Questa idea si fonda sulla teoria della semantica distribuzionale, ossia che il lessico viene concepito come uno spazio vettoriale dove le parole sono separate da distanze che dipendono dal loro grado di similitudine. Si vedrà che esistono differenti modi per individuare il migliore modello, dipendentemente dall’obiettivo che ci si pone; si scoprirà che la dimensione dei dati utilizzati risulterà molto importante per costruire dei modelli in grado di cogliere la semantica del testo e si individueranno delle possibili tecniche per studiare il bias di genere all’interno dei dati.
Metodologie e strumenti per lo studio del bias di genere nei documenti di testo
RIPAMONTI, MATTEO
2021/2022
Abstract
Gli studi riguardanti problemi di comprensione del linguaggio naturale da parte di modelli ricompre un importante ruolo nell’ambito delle tecnologie digitali. In questo lavoro verranno affrontati dei possibili metodi e strumenti per analizzare tali problemi, con una maggiore attenzione al tema del bias di genere. Si prenderanno in considerazione dati digitali sotto forma testuale e si cercherà di ottenere dei modelli che abbiamo la capacità di comprendere il linguaggio naturale e la sua semantica per poi applicarli ad un eventuale studio riguardante in bias di genere all’interno del testo. Il principale strumento del natural language processing è il word embedding, ossia uno strumento che ha lo scopo di estrarre le informazioni semantiche e sintattiche da un testo, attraverso la trasformazione di quest’ultimo in uno spazio vettoriale, dove ogni parola è rappresentata da vettori di numeri naturali, i quali più si trovano tanto più vicini quanto ricorrono nello stesso spazio semantico. Questa idea si fonda sulla teoria della semantica distribuzionale, ossia che il lessico viene concepito come uno spazio vettoriale dove le parole sono separate da distanze che dipendono dal loro grado di similitudine. Si vedrà che esistono differenti modi per individuare il migliore modello, dipendentemente dall’obiettivo che ci si pone; si scoprirà che la dimensione dei dati utilizzati risulterà molto importante per costruire dei modelli in grado di cogliere la semantica del testo e si individueranno delle possibili tecniche per studiare il bias di genere all’interno dei dati.File | Dimensione | Formato | |
---|---|---|---|
Ripamonti_Matteo.pdf
accesso aperto
Dimensione
838.75 kB
Formato
Adobe PDF
|
838.75 kB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/35166