Taxonomic text classification is the Natural Language Processing (NLP) branch that aims at classifying text into a hierarchically organized schema. Its applications space from pure research to industrial and commercial purposes. In this thesis, in particular, the attention is focused on the process of developing a multilingual model for hierarchically classifying text independently from its idiom. Comparative analysis is performed to evaluate whose embedding techniques and feature selection methods perform better. Moreover, since in real-life scenarios a multilingual model may be required to support new languages over time, we implement and benchmark a set of techniques, among which are two Continual Learning algorithms, to sequentially extend our network to an incremental number of languages. The experiments carried out display both the solidity and criticalities of the current model and set the basis for further research.
La classificazione tassonomica dei testi è una branca dell'elaborazione del linguaggio naturale (NLP) che mira a classificare i testi in uno schema organizzato gerarchicamente. Le sue applicazioni spaziano dalla ricerca pura a scopi industriali e commerciali. In questa tesi, in particolare, l'attenzione è focalizzata sul processo di sviluppo di un modello multilingue per la classificazione gerarchica del testo indipendentemente dal suo idioma. Viene effettuata un'analisi comparativa per valutare quali tecniche di embedding e quali metodi di selezione delle feature siano più performanti. Inoltre, poiché nelle applicazioni concrete può essere richiesto che un modello multilingue supporti nuove lingue nel corso del tempo, implementiamo e analizziamo una serie di tecniche, tra cui due algoritmi di apprendimento continuo, per estendere sequenzialmente la nostra rete a un numero incrementale di lingue. Gli esperimenti condotti mostrano sia la solidità che le criticità del modello attuale e pongono le basi per ulteriori ricerche.
Multilingual taxonomic text classification in an incremental number of languages
CAMPESAN, GIULIA
2021/2022
Abstract
Taxonomic text classification is the Natural Language Processing (NLP) branch that aims at classifying text into a hierarchically organized schema. Its applications space from pure research to industrial and commercial purposes. In this thesis, in particular, the attention is focused on the process of developing a multilingual model for hierarchically classifying text independently from its idiom. Comparative analysis is performed to evaluate whose embedding techniques and feature selection methods perform better. Moreover, since in real-life scenarios a multilingual model may be required to support new languages over time, we implement and benchmark a set of techniques, among which are two Continual Learning algorithms, to sequentially extend our network to an incremental number of languages. The experiments carried out display both the solidity and criticalities of the current model and set the basis for further research.File | Dimensione | Formato | |
---|---|---|---|
Campesan_Giulia.pdf
accesso aperto
Dimensione
16.51 MB
Formato
Adobe PDF
|
16.51 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/36061