The aim of this master's thesis is to present a method for differentiating between terminological collocations and complex terms. The starting hypothesis stems from the assumption that it is possible to distinguish terminological collocations from complex terms in the context of specialised languages on the basis of statistical analysis. The analysis of this assumption is important, especially from the point of view of practitioners of speciality languages, as it would make it possible to resolve problems related to certain ambiguous situations arising from the similarity between terminological collocations and complex terms. In this way, the specialised translation workflow or the construction of terminology databases would enjoy greater accuracy of results and, consequently, greater precision of choices. In order to validate this hypothesis, a corpus in Italian and a corpus in French, both composed of specialised texts, was designed, then terminology extraction was carried out, followed by the quantitative analysis of the results through the implementation of a tagger and a stoplist composed of non-terminal sequences, and finally, the statistical analysis of the results, to which a dedicated chapter was reserved for results. This dissertation thus consists of five chapters in total, excluding the introduction and conclusion: the first two chapters have the function of introducing the context, the Terminology, from which the descriptions of general language collocations and terminological collocations are developed, moving on to simple terms and complex terms. The third chapter is devoted to the definition of corpora, and in particular, to the description of the design and construction of the corpora used in this thesis. The fourth chapter is devoted to the analysis of the results obtained from the terminological extraction carried out using TermoStat, and finally, the fifth chapter is reserved for future study perspectives.

La presente tesi di laurea magistrale si pone l'obbiettivo di presentare un metodo di differenziazione tra le collocazioni terminologiche e i termini complessi. L'ipotesi di partenza nasce dall'assunzione che sia possibile distinguere, su base di analisi statistica, le collocazioni terminologiche dai termini complessi nel contesto delle lingue di specialità. L'analisi di tale ipotesi è importante, soprattutto dal punto di vista dei professionisti delle lingue di specialità, in quanto permetterebbe di risolvere problemi legati ad alcune situazioni ambigue derivanti dalla somiglianza tra le collocazioni terminologiche e i termini complessi. In questo modo, il workflow di traduzione specializzata o la costruzione di database terminologici godrebbe di maggior precisione dei risultati e, conseguentemente, maggior precisione nelle scelte. Per la validazione di tale ipotesi è stato disegnato un corpus in italiano e un corpus in francese, entrambi composti da testi specializzati, successivamente è stata effettuata l'estrazione terminologica e, in seguito, l'analisi quantitativa dei risultati attraverso l'implementazione di un tagger e di una stoplist composta da sequenze non-termini, in ultima istanza, l'analisi statistica dei risultati, a cui è stato riservato risultati un capitolo dedicato. La presente tesi di laurea si compone dunque di cinque capitoli totali, ad esclusione di introduzione e conclusione: i primi due capitoli hanno la funzione di introdurre il contesto, la Terminologia, da cui si sviluppano le descrizioni delle collocazioni in lingua generale e le collocazioni terminologiche, passando poi ai termini semplici ed ai termini complessi. Il terzo capitolo è dedicato alla definizione dei corpora, e in particolare, alla descrizione del disegno e costruzione dei corpus utilizzati nella presente tesi. Il quarto capitolo è dedicato all'analisi dei risultati ottenuti dall'estrazione terminologica svolta mediante TermoStat , infine, il quinto capitolo è riservato alle prospettive di studio future.

Entre collocations terminologiques et termes complexes : proposition d'une méthode d'extraction automatique

FILONZI, ROCCO
2024/2025

Abstract

The aim of this master's thesis is to present a method for differentiating between terminological collocations and complex terms. The starting hypothesis stems from the assumption that it is possible to distinguish terminological collocations from complex terms in the context of specialised languages on the basis of statistical analysis. The analysis of this assumption is important, especially from the point of view of practitioners of speciality languages, as it would make it possible to resolve problems related to certain ambiguous situations arising from the similarity between terminological collocations and complex terms. In this way, the specialised translation workflow or the construction of terminology databases would enjoy greater accuracy of results and, consequently, greater precision of choices. In order to validate this hypothesis, a corpus in Italian and a corpus in French, both composed of specialised texts, was designed, then terminology extraction was carried out, followed by the quantitative analysis of the results through the implementation of a tagger and a stoplist composed of non-terminal sequences, and finally, the statistical analysis of the results, to which a dedicated chapter was reserved for results. This dissertation thus consists of five chapters in total, excluding the introduction and conclusion: the first two chapters have the function of introducing the context, the Terminology, from which the descriptions of general language collocations and terminological collocations are developed, moving on to simple terms and complex terms. The third chapter is devoted to the definition of corpora, and in particular, to the description of the design and construction of the corpora used in this thesis. The fourth chapter is devoted to the analysis of the results obtained from the terminological extraction carried out using TermoStat, and finally, the fifth chapter is reserved for future study perspectives.
2024
Between terminological collocations and complex terms: proposal of an automatic extraction method
La presente tesi di laurea magistrale si pone l'obbiettivo di presentare un metodo di differenziazione tra le collocazioni terminologiche e i termini complessi. L'ipotesi di partenza nasce dall'assunzione che sia possibile distinguere, su base di analisi statistica, le collocazioni terminologiche dai termini complessi nel contesto delle lingue di specialità. L'analisi di tale ipotesi è importante, soprattutto dal punto di vista dei professionisti delle lingue di specialità, in quanto permetterebbe di risolvere problemi legati ad alcune situazioni ambigue derivanti dalla somiglianza tra le collocazioni terminologiche e i termini complessi. In questo modo, il workflow di traduzione specializzata o la costruzione di database terminologici godrebbe di maggior precisione dei risultati e, conseguentemente, maggior precisione nelle scelte. Per la validazione di tale ipotesi è stato disegnato un corpus in italiano e un corpus in francese, entrambi composti da testi specializzati, successivamente è stata effettuata l'estrazione terminologica e, in seguito, l'analisi quantitativa dei risultati attraverso l'implementazione di un tagger e di una stoplist composta da sequenze non-termini, in ultima istanza, l'analisi statistica dei risultati, a cui è stato riservato risultati un capitolo dedicato. La presente tesi di laurea si compone dunque di cinque capitoli totali, ad esclusione di introduzione e conclusione: i primi due capitoli hanno la funzione di introdurre il contesto, la Terminologia, da cui si sviluppano le descrizioni delle collocazioni in lingua generale e le collocazioni terminologiche, passando poi ai termini semplici ed ai termini complessi. Il terzo capitolo è dedicato alla definizione dei corpora, e in particolare, alla descrizione del disegno e costruzione dei corpus utilizzati nella presente tesi. Il quarto capitolo è dedicato all'analisi dei risultati ottenuti dall'estrazione terminologica svolta mediante TermoStat , infine, il quinto capitolo è riservato alle prospettive di studio future.
Collocazioni
Termini
Corpus
Analisi automatica
Terminologia
File in questo prodotto:
File Dimensione Formato  
rocco.filonzi@studenti.unipd.it_LCC_ Tesi completa VEZZANI 2025-06-01 14_13_49.pdf

Accesso riservato

Dimensione 2.2 MB
Formato Adobe PDF
2.2 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/88014