Despite its venerable age, the Sprach- und Sachatlas Italiens und der Südschweiz (AIS) (Linguistic and Ethnographic Atlas of Italy and Southern Switzerland) remains one of the most useful tools for geographical linguistics, as well as for Romance and Italian dialectology. Its digitization, carried out by the University of Zurich as part of the AIS, reloaded project, has enabled the use of quantitative and computational approaches for studying the valuable phonological, lexical, grammatical, and ethnographic materials contained in the AIS. This thesis applies and compares two clustering techniques used to classify the Romance linguistic varieties described in the AIS. The first method is based on the use of normalized Levenshtein distance to compute a distance matrix, which is then partitioned using agglomerative hierarchical clustering with Ward's method. The second method is SKATER, an algorithm capable of identifying groups that are internally homogeneous while also being geographically contiguous.

Nonostante la sua venerabile età, lo Sprach- und Sachatlas Italiens und der Südschweiz (AIS) (Atlante Linguistico ed Etnografico dell'Italia e della Svizzera Meridionale) resta ancora uno degli strumenti più utili per la linguistica geografica, e per la dialettologia romanza e italiana. La sua digitalizzazione, ad opera dell'Università di Zurigo nel contesto del progetto AIS, reloaded, ha permesso l'impiego di approcci quantitativi e computazionali per lo studio dei preziosi materiali fonologici, lessicali, grammaticali ed etnografici presenti nell'AIS. La presente tesi applica e mette a confronto due tecniche di analisi dei gruppi (clustering) usate per classificare le varietà linguistiche romanze descritte nell'AIS. Il primo metodo è basato sull'uso della distanza di Levenshtein normalizzata per calcolare una matrice di distanza, successivamente partizionata tramite clustering gerarchico agglomerativo con metodo di Ward. Il secondo metodo è costituito da SKATER, un algoritmo in grado di individuare gruppi i cui elementi siano internamente omogenei e al contempo geograficamente contigui fra di loro.

Varietà linguistiche romanze in Italia e Svizzera: un'analisi statistica

NAGY, GIORGIO
2024/2025

Abstract

Despite its venerable age, the Sprach- und Sachatlas Italiens und der Südschweiz (AIS) (Linguistic and Ethnographic Atlas of Italy and Southern Switzerland) remains one of the most useful tools for geographical linguistics, as well as for Romance and Italian dialectology. Its digitization, carried out by the University of Zurich as part of the AIS, reloaded project, has enabled the use of quantitative and computational approaches for studying the valuable phonological, lexical, grammatical, and ethnographic materials contained in the AIS. This thesis applies and compares two clustering techniques used to classify the Romance linguistic varieties described in the AIS. The first method is based on the use of normalized Levenshtein distance to compute a distance matrix, which is then partitioned using agglomerative hierarchical clustering with Ward's method. The second method is SKATER, an algorithm capable of identifying groups that are internally homogeneous while also being geographically contiguous.
2024
Romance Linguistic Varieties in Italy and Switzerland: a Statistical Analysis
Nonostante la sua venerabile età, lo Sprach- und Sachatlas Italiens und der Südschweiz (AIS) (Atlante Linguistico ed Etnografico dell'Italia e della Svizzera Meridionale) resta ancora uno degli strumenti più utili per la linguistica geografica, e per la dialettologia romanza e italiana. La sua digitalizzazione, ad opera dell'Università di Zurigo nel contesto del progetto AIS, reloaded, ha permesso l'impiego di approcci quantitativi e computazionali per lo studio dei preziosi materiali fonologici, lessicali, grammaticali ed etnografici presenti nell'AIS. La presente tesi applica e mette a confronto due tecniche di analisi dei gruppi (clustering) usate per classificare le varietà linguistiche romanze descritte nell'AIS. Il primo metodo è basato sull'uso della distanza di Levenshtein normalizzata per calcolare una matrice di distanza, successivamente partizionata tramite clustering gerarchico agglomerativo con metodo di Ward. Il secondo metodo è costituito da SKATER, un algoritmo in grado di individuare gruppi i cui elementi siano internamente omogenei e al contempo geograficamente contigui fra di loro.
linguistica storica
Levenshtein distanza
filogenetica
inferenza Bayesiana
lingue romanze
File in questo prodotto:
File Dimensione Formato  
Nagy_Giorgio.pdf

accesso riservato

Dimensione 22.12 MB
Formato Adobe PDF
22.12 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/84088