Human beings have always been fascinated by the variety of languages that exist in the world, wondering on the reasons behind their differences, similarities and sometimes oddities. Today we are taught by linguistics that certain languages have characteristics in common because they belong to the same family, that is, they descend from a common ancestor, or because they are geographically close. This thesis aims to study the relationships between the languages of the world from a quantitative and statistical approach, investigating whether it is reasonably possible to classify them based on their characteristics. To accomplish this, two resources were used: WALS and PHOIBLE. These are two projects made available by the Max Planck Institute for the Science of Human History. The World Atlas of Language Structures (WALS) is a large database of structural (phonological, grammatical, lexical) properties of languages gathered from descriptive materials (such as reference grammars). It contains information relative to 2662 languages and regarding 192 characteristics, where each characteristic is a qualitative variable that can assume two or more values. PHOIBLE is a repository of cross-linguistic phonological inventory data containing 3020 phonological inventories from 2186 distinct languages. A phonological inventory consists of the sounds (phonemes) possessed by a language. Starting from the data extracted from these two sources, reference datasets were accordingly created and manipulated. Exploratory analyses were then conducted to summarize the data and investigate its nature and properties. The implementation of clustering techniques, and then of a phylogenetic network follows, obtained starting from an alignment of sequences. For this purpose, SplitsTree was used, a program made available by the University of Tübingen which aims at creating rootless phylogenetic networks from molecular data sequences. This kind of graphs is generally used in the field of genetics, and the present thesis looks into their application also to the study of the relationships between the languages of the world. Finally, decision trees are put into practice to determine the phonemes capable of discriminating more between languages belonging to different linguistic areas and families. The predictive power of decision trees in this context is evaluated as well. The analyses carried out confirm the hypothesis that languages belonging to the same linguistic family or the same geographical area show a greater tendency to share characteristics and phonemes. They moreover highlight interesting tendencies of certain languages to form unexpected groupings. These deserve to be further explored.

Cognome Nome del laureando: NAGY GIORGIO Titolo della Tesi: Analisi statistica delle relazioni tra le lingue Indirizzo del Corso di Laurea: STATISTICA PER LE TECNOLOGIE E LE SCIENZE Primo Relatore: CATTELAN MANUELA Gli esseri umani sono da sempre stati affascinati dalla molteplicità di lingue che esistono nel mondo, domandandosi il perché della loro diversità, somiglianza e talvolta stranezza. Oggi la linguistica ci insegna che certe lingue presentano caratteristiche in comune perché appartengono alla medesima famiglia, ovvero discendono da un antenato comune, o perché sono geograficamente vicine. La presente tesi si pone l'obiettivo di studiare le relazioni fra le lingue del mondo con un approccio quantitativo e statistico, indagando se sia ragionevolmente possibile classificarle a partire dalle loro caratteristiche. Per fare questo ci si è avvalsi di due risorse: WALS e PHOIBLE. Si tratta di due progetti messi a disposizione dall'Istituto Max Planck per la scienza della storia umana. Il Word Atlas of Language Structures (WALS) è un esteso database di proprietà strutturali (fonologiche, grammaticali e lessicali) di lingue raccolte da materiali descrittivi come, ad esempio, grammatiche di riferimento. Contiene informazioni relative a 2662 lingue del mondo riguardo a 192 caratteristiche, dove ciascuna caratteristica è una variabile qualitativa che può assumere due o più valori. PHOIBLE è una raccolta di dati che contiene 3020 sistemi fonologici provenienti da 2186 lingue distinte. Un sistema fonologico è costituito dai suoni (fonemi) posseduti da una lingua. A partire dai dati estratti da queste due risorse sono stati conseguentemente creati e manipolati dei datasets di riferimento. Sono state poi condotte delle analisi esplorative atte a sintetizzare i dati di partenza e ad indagare la loro natura e codifica. Segue l'implementazione di alcune tecniche di clustering e di una rete filogenetica, ottenuta partendo da un allineamento di sequenze. Si è fatto uso a questo proposito di SplitsTree, un programma messo a disposizione dall'Università di Tübingen che ha lo scopo di creare reti filogenetiche senza radici da sequenze di dati molecolari. Questo tipo di grafi è generalmente utilizzato nell'ambito della genetica, e la presente tesi si domanda se sia ragionevole applicarli anche allo studio delle relazioni tra le lingue del mondo. Vengono infine messi in pratica degli alberi di classificazione per determinare i fonemi in grado di discriminare maggiormente fra lingue appartenenti ad aree e famiglie linguistiche diverse. Viene inoltre valutata la potenza predittiva degli alberi di classificazione in questo contesto. Le analisi condotte confermano l'ipotesi che lingue appartenenti alla stessa famiglia linguistica o alla stessa area geografica mostrino una tendenza maggiore a presentare caratteristiche e fonemi in comune. Evidenziano in aggiunta tendenze interessanti delle lingue a formare raggruppamenti inaspettati, i quali meritano di venire ulteriormente esplorati.

Analisi statistica delle relazioni tra le lingue

NAGY, GIORGIO
2021/2022

Abstract

Human beings have always been fascinated by the variety of languages that exist in the world, wondering on the reasons behind their differences, similarities and sometimes oddities. Today we are taught by linguistics that certain languages have characteristics in common because they belong to the same family, that is, they descend from a common ancestor, or because they are geographically close. This thesis aims to study the relationships between the languages of the world from a quantitative and statistical approach, investigating whether it is reasonably possible to classify them based on their characteristics. To accomplish this, two resources were used: WALS and PHOIBLE. These are two projects made available by the Max Planck Institute for the Science of Human History. The World Atlas of Language Structures (WALS) is a large database of structural (phonological, grammatical, lexical) properties of languages gathered from descriptive materials (such as reference grammars). It contains information relative to 2662 languages and regarding 192 characteristics, where each characteristic is a qualitative variable that can assume two or more values. PHOIBLE is a repository of cross-linguistic phonological inventory data containing 3020 phonological inventories from 2186 distinct languages. A phonological inventory consists of the sounds (phonemes) possessed by a language. Starting from the data extracted from these two sources, reference datasets were accordingly created and manipulated. Exploratory analyses were then conducted to summarize the data and investigate its nature and properties. The implementation of clustering techniques, and then of a phylogenetic network follows, obtained starting from an alignment of sequences. For this purpose, SplitsTree was used, a program made available by the University of Tübingen which aims at creating rootless phylogenetic networks from molecular data sequences. This kind of graphs is generally used in the field of genetics, and the present thesis looks into their application also to the study of the relationships between the languages of the world. Finally, decision trees are put into practice to determine the phonemes capable of discriminating more between languages belonging to different linguistic areas and families. The predictive power of decision trees in this context is evaluated as well. The analyses carried out confirm the hypothesis that languages belonging to the same linguistic family or the same geographical area show a greater tendency to share characteristics and phonemes. They moreover highlight interesting tendencies of certain languages to form unexpected groupings. These deserve to be further explored.
2021
Statistical Analysis of the relations between languages
Cognome Nome del laureando: NAGY GIORGIO Titolo della Tesi: Analisi statistica delle relazioni tra le lingue Indirizzo del Corso di Laurea: STATISTICA PER LE TECNOLOGIE E LE SCIENZE Primo Relatore: CATTELAN MANUELA Gli esseri umani sono da sempre stati affascinati dalla molteplicità di lingue che esistono nel mondo, domandandosi il perché della loro diversità, somiglianza e talvolta stranezza. Oggi la linguistica ci insegna che certe lingue presentano caratteristiche in comune perché appartengono alla medesima famiglia, ovvero discendono da un antenato comune, o perché sono geograficamente vicine. La presente tesi si pone l'obiettivo di studiare le relazioni fra le lingue del mondo con un approccio quantitativo e statistico, indagando se sia ragionevolmente possibile classificarle a partire dalle loro caratteristiche. Per fare questo ci si è avvalsi di due risorse: WALS e PHOIBLE. Si tratta di due progetti messi a disposizione dall'Istituto Max Planck per la scienza della storia umana. Il Word Atlas of Language Structures (WALS) è un esteso database di proprietà strutturali (fonologiche, grammaticali e lessicali) di lingue raccolte da materiali descrittivi come, ad esempio, grammatiche di riferimento. Contiene informazioni relative a 2662 lingue del mondo riguardo a 192 caratteristiche, dove ciascuna caratteristica è una variabile qualitativa che può assumere due o più valori. PHOIBLE è una raccolta di dati che contiene 3020 sistemi fonologici provenienti da 2186 lingue distinte. Un sistema fonologico è costituito dai suoni (fonemi) posseduti da una lingua. A partire dai dati estratti da queste due risorse sono stati conseguentemente creati e manipolati dei datasets di riferimento. Sono state poi condotte delle analisi esplorative atte a sintetizzare i dati di partenza e ad indagare la loro natura e codifica. Segue l'implementazione di alcune tecniche di clustering e di una rete filogenetica, ottenuta partendo da un allineamento di sequenze. Si è fatto uso a questo proposito di SplitsTree, un programma messo a disposizione dall'Università di Tübingen che ha lo scopo di creare reti filogenetiche senza radici da sequenze di dati molecolari. Questo tipo di grafi è generalmente utilizzato nell'ambito della genetica, e la presente tesi si domanda se sia ragionevole applicarli anche allo studio delle relazioni tra le lingue del mondo. Vengono infine messi in pratica degli alberi di classificazione per determinare i fonemi in grado di discriminare maggiormente fra lingue appartenenti ad aree e famiglie linguistiche diverse. Viene inoltre valutata la potenza predittiva degli alberi di classificazione in questo contesto. Le analisi condotte confermano l'ipotesi che lingue appartenenti alla stessa famiglia linguistica o alla stessa area geografica mostrino una tendenza maggiore a presentare caratteristiche e fonemi in comune. Evidenziano in aggiunta tendenze interessanti delle lingue a formare raggruppamenti inaspettati, i quali meritano di venire ulteriormente esplorati.
Lingue
Splitstree
Albero
Fonema
Relazioni
File in questo prodotto:
File Dimensione Formato  
Nagy_Giorgio.pdf

accesso aperto

Dimensione 1.66 MB
Formato Adobe PDF
1.66 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/39219