This work aims to investigate the diachronic process that led the Latin verb habeo, in a specific syntactic context, to undergo a semantic shift, eventually becoming an auxiliary verb, which in its evolution contributes to the formation of compound tenses in the Romance languages. The objective of this research is to examine this process, which has already been extensively explored in traditional literature, through the NLP methodologies offered by computational linguistics, in order to evaluate both their advantages and limitations. The first step will involve creating a corpus containing both the lexical and grammatical uses of the verb habeo at various stages of the Latin language. The collected data will then be analyzed using UDPipe, an automatic linguistic annotation pipeline developed within the framework of Universal Dependencies, with a model trained on Latin treebanks. The discussion will focus on errors made by the parser in identifying part-of-speech tags and the dependency relations between habeo and other elements within the sentence. This will allow for a reflection on the limitations of a machine learning-based linguistic model and possible solutions to the problem of data scarcity. In the second phase of the work, advanced neural network models will be employed to study diachronic linguistic phenomena. Special attention will be given to the analysis of the test set of collected sentences using Latin BERT, a transformer-based model that generates contextual embeddings for linguistic data. The application of Latin BERT will focus on exploring various linguistic tasks to test and evaluate the model’s capabilities, both from a syntactic and semantic perspective. Among the tasks, the model’s ability will be tested through Masking, to verify its capacity to predict missing words based on context. The avarage accuracy of the model in predicting the verb habeo hidden in the identified experimental contexts will therefore be calculated. The ultimate aim of this research is twofold: on the one hand, it seeks to make a significant contribution to the validation of the existing literature on the subject, by integrating traditional perspectives with the potential of data-driven techniques. On the other hand, it aims to raise further questions and insights, leveraging computational linguistics tools to address issues that have been relatively unexplored in the field of diachronic research.

Il presente lavoro si propone di indagare il processo diacronico che ha portato il verbo latino habeo, in un contesto sintattico specifico, a subire un alleggerimento semantico fino a raggiungere lo statuto di verbo ausiliare, che nella sua evoluzione concorre alla costruzione dei tempi composti nelle lingue romanze. L'obiettivo della ricerca è quello di esaminare il suddetto processo, già lungamente esplorato nella letteratura tradizionale, attraverso le metodologie NLP offerte dalla linguistica computazionale al fine di valutarne i vantaggi e i limiti. Il primo passo consisterà nella creazione di un corpus contenente sia gli usi lessicali sia quelli grammaticali del verbo habeo in diversi stadi della lingua latina. I dati raccolti verranno poi analizzati attraverso UDPipe, una catena di annotazione linguistica automatica sviluppata nel framework delle Universal Dependencies, con un modello addestrato su treebank del latino. Saranno oggetto di discussione gli errori di classificazione effettuati dal parser per quanto concerne l'individuazione delle parti del discorso e delle relazioni di dipendenza tra habeo e gli altri elementi della frase. Ciò consentirà una riflessione sui limiti di un modello linguistico basato machine learning e sulle possibili soluzioni al problema della scarsità dei dati. Nella seconda fase del lavoro, verranno impiegati modelli di reti neurali avanzati per affrontare lo studio di fenomeni linguistici diacronici. Particolare attenzione sarà dedicata all'analisi del test set delle frasi raccolte mediante l'utilizzo di Latin BERT, un modello basato su trasformatori che genera embedding contestuali per i dati linguistici. L'applicazione di Latin BERT sarà finalizzata a esplorare vari task linguistici che consentano di testare e valutare le competenze del modello, sia sul piano sintattico che su quello semantico. Tra i compiti previsti, si analizzeranno le capacità del modello attraverso il Masking, per verificare la sua abilità nel predire parole mancanti basandosi sul contesto. Si procederà quindi al calcolo dell'accuratezza del modello nel predire i l verbo habeo occultato nei contesti sperimentali individuati. Il fine ultimo di questa ricerca è duplice: da un lato, si mira a fornire un contributo significativo alla validazione della letteratura esistente sull’argomento, attraverso un approccio che integri la prospettiva tradizionale con le potenzialità delle tecniche data-driven. Dall'altro, si intende stimolare nuove riflessioni e aprire la strada a ulteriori interrogativi e approfondimenti, sfruttando gli strumenti della linguistica computazionale per affrontare problematiche ancora poco esplorate nel campo della ricerca diacronica.

Approcci Computazionali alla Diacronia: uno Studio sull’Ausiliarizzazione di Habeo

DIGIARO, FRANCESCA
2023/2024

Abstract

This work aims to investigate the diachronic process that led the Latin verb habeo, in a specific syntactic context, to undergo a semantic shift, eventually becoming an auxiliary verb, which in its evolution contributes to the formation of compound tenses in the Romance languages. The objective of this research is to examine this process, which has already been extensively explored in traditional literature, through the NLP methodologies offered by computational linguistics, in order to evaluate both their advantages and limitations. The first step will involve creating a corpus containing both the lexical and grammatical uses of the verb habeo at various stages of the Latin language. The collected data will then be analyzed using UDPipe, an automatic linguistic annotation pipeline developed within the framework of Universal Dependencies, with a model trained on Latin treebanks. The discussion will focus on errors made by the parser in identifying part-of-speech tags and the dependency relations between habeo and other elements within the sentence. This will allow for a reflection on the limitations of a machine learning-based linguistic model and possible solutions to the problem of data scarcity. In the second phase of the work, advanced neural network models will be employed to study diachronic linguistic phenomena. Special attention will be given to the analysis of the test set of collected sentences using Latin BERT, a transformer-based model that generates contextual embeddings for linguistic data. The application of Latin BERT will focus on exploring various linguistic tasks to test and evaluate the model’s capabilities, both from a syntactic and semantic perspective. Among the tasks, the model’s ability will be tested through Masking, to verify its capacity to predict missing words based on context. The avarage accuracy of the model in predicting the verb habeo hidden in the identified experimental contexts will therefore be calculated. The ultimate aim of this research is twofold: on the one hand, it seeks to make a significant contribution to the validation of the existing literature on the subject, by integrating traditional perspectives with the potential of data-driven techniques. On the other hand, it aims to raise further questions and insights, leveraging computational linguistics tools to address issues that have been relatively unexplored in the field of diachronic research.
2023
Computational Approaches to Diachrony: a Study on the Auxiliarization of Habeo
Il presente lavoro si propone di indagare il processo diacronico che ha portato il verbo latino habeo, in un contesto sintattico specifico, a subire un alleggerimento semantico fino a raggiungere lo statuto di verbo ausiliare, che nella sua evoluzione concorre alla costruzione dei tempi composti nelle lingue romanze. L'obiettivo della ricerca è quello di esaminare il suddetto processo, già lungamente esplorato nella letteratura tradizionale, attraverso le metodologie NLP offerte dalla linguistica computazionale al fine di valutarne i vantaggi e i limiti. Il primo passo consisterà nella creazione di un corpus contenente sia gli usi lessicali sia quelli grammaticali del verbo habeo in diversi stadi della lingua latina. I dati raccolti verranno poi analizzati attraverso UDPipe, una catena di annotazione linguistica automatica sviluppata nel framework delle Universal Dependencies, con un modello addestrato su treebank del latino. Saranno oggetto di discussione gli errori di classificazione effettuati dal parser per quanto concerne l'individuazione delle parti del discorso e delle relazioni di dipendenza tra habeo e gli altri elementi della frase. Ciò consentirà una riflessione sui limiti di un modello linguistico basato machine learning e sulle possibili soluzioni al problema della scarsità dei dati. Nella seconda fase del lavoro, verranno impiegati modelli di reti neurali avanzati per affrontare lo studio di fenomeni linguistici diacronici. Particolare attenzione sarà dedicata all'analisi del test set delle frasi raccolte mediante l'utilizzo di Latin BERT, un modello basato su trasformatori che genera embedding contestuali per i dati linguistici. L'applicazione di Latin BERT sarà finalizzata a esplorare vari task linguistici che consentano di testare e valutare le competenze del modello, sia sul piano sintattico che su quello semantico. Tra i compiti previsti, si analizzeranno le capacità del modello attraverso il Masking, per verificare la sua abilità nel predire parole mancanti basandosi sul contesto. Si procederà quindi al calcolo dell'accuratezza del modello nel predire i l verbo habeo occultato nei contesti sperimentali individuati. Il fine ultimo di questa ricerca è duplice: da un lato, si mira a fornire un contributo significativo alla validazione della letteratura esistente sull’argomento, attraverso un approccio che integri la prospettiva tradizionale con le potenzialità delle tecniche data-driven. Dall'altro, si intende stimolare nuove riflessioni e aprire la strada a ulteriori interrogativi e approfondimenti, sfruttando gli strumenti della linguistica computazionale per affrontare problematiche ancora poco esplorate nel campo della ricerca diacronica.
Grammaticalizzazione
Verbo latino
Machine Learning
Latin BERT
Diacronia
File in questo prodotto:
File Dimensione Formato  
Digiaro_Francesca.pdf

accesso aperto

Dimensione 1.17 MB
Formato Adobe PDF
1.17 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/78800