Confronto tra modelli linguistici e approcci tradizionali per l'attribuzione d'autore: un'analisi di testi prodotti da studenti e da ChatGPT

Automatic text recognition is an emerging topic that explores the ability to distinguish between content produced by humans and content generated artificially by large language models (LLMs), such as ChatGPT. Through a detailed analysis of authorship attribution techniques, this essay examines the historical evolution and modern methodologies used to identify a unique and distinctive writing style, capable of characterizing either a person or a computer. The investigation focuses on analyzing a corpus of texts of different origins, applying vectorization techniques and dimensionality reduction to effectively represent the data. The thesis outlines the methodological choices adopted, including the use of advanced classification models based on transformers and embeddings, to develop a system capable of accurately identifying the origin of texts. Through a rigorous comparative evaluation, the results demonstrate that, although language models offer extraordinary generative capabilities, effective tools exist to recognize the artificial imprint in texts. This study highlights the importance of an ethical and transparent use of these technologies, contributing to the debate on the integration of artificial intelligence in the production of digital content.

Il riconoscimento automatico dei testi è un tema emergente che esplora la capacità di distinguere tra contenuti prodotti da esseri umani e quelli generati artificialmente da modelli linguistici di grandi dimensioni (LLM), come ChatGPT. Attraverso un'analisi dettagliata delle tecniche di attribuzione d'autore, questo elaborato esamina l'evoluzione storica e le metodologie moderne utilizzate per identificare lo stile di scrittura unico e distintivo, capace di caratterizzare un individuo o un computer. L'indagine si concentra sull'analisi di un corpus di testi di origine differente, applicando tecniche di vettorizzazione e riduzione della dimensionalità per rappresentare efficacemente i dati. La tesi illustra le scelte metodologiche adottate, tra cui l'uso di modelli di classificazione avanzati basati su trasformatori ed embedding, per sviluppare un sistema capace di identificare con precisione l'origine dei testi. Attraverso una rigorosa valutazione comparativa, i risultati dimostrano che, sebbene i modelli linguistici offrano straordinarie capacità generative, esistono strumenti efficaci per riconoscere l'impronta artificiale nei testi. Il lavoro mette in luce l'importanza di un uso etico e trasparente di queste tecnologie, contribuendo al dibattito sull'integrazione dell'intelligenza artificiale nella produzione di contenuti digitali.

Confronto tra modelli linguistici e approcci tradizionali per l'attribuzione d'autore: un'analisi di testi prodotti da studenti e da ChatGPT

DAL CERO, FRANCESCO

2023/2024

Abstract

Automatic text recognition is an emerging topic that explores the ability to distinguish between content produced by humans and content generated artificially by large language models (LLMs), such as ChatGPT. Through a detailed analysis of authorship attribution techniques, this essay examines the historical evolution and modern methodologies used to identify a unique and distinctive writing style, capable of characterizing either a person or a computer. The investigation focuses on analyzing a corpus of texts of different origins, applying vectorization techniques and dimensionality reduction to effectively represent the data. The thesis outlines the methodological choices adopted, including the use of advanced classification models based on transformers and embeddings, to develop a system capable of accurately identifying the origin of texts. Through a rigorous comparative evaluation, the results demonstrate that, although language models offer extraordinary generative capabilities, effective tools exist to recognize the artificial imprint in texts. This study highlights the importance of an ethical and transparent use of these technologies, contributing to the debate on the integration of artificial intelligence in the production of digital content.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Dipartimento di Scienze Statistiche
			
	Corso di studio
	
				SCIENZE STATISTICHE Laurea Magistrale (D.M. 270/2004)
			
	Anno Accademico
	
				2023
			
	Titolo inglese
	
				Comparison of language models and traditional approaches for authorship attribution: an analysis of texts produced by students and ChatGPT
			
	Abstract in italiano
	
				Il riconoscimento automatico dei testi è un tema emergente che esplora la capacità di distinguere tra contenuti prodotti da esseri umani e quelli generati artificialmente da modelli linguistici di grandi dimensioni (LLM), come ChatGPT. Attraverso un'analisi dettagliata delle tecniche di attribuzione d'autore, questo elaborato esamina l'evoluzione storica e le metodologie moderne utilizzate per identificare lo stile di scrittura unico e distintivo, capace di caratterizzare un individuo o un computer. L'indagine si concentra sull'analisi di un corpus di testi di origine differente, applicando tecniche di vettorizzazione e riduzione della dimensionalità per rappresentare efficacemente i dati. La tesi illustra le scelte metodologiche adottate, tra cui l'uso di modelli di classificazione avanzati basati su trasformatori ed embedding, per sviluppare un sistema capace di identificare con precisione l'origine dei testi. Attraverso una rigorosa valutazione comparativa, i risultati dimostrano che, sebbene i modelli linguistici offrano straordinarie capacità generative, esistono strumenti efficaci per riconoscere l'impronta artificiale nei testi. Il lavoro mette in luce l'importanza di un uso etico e trasparente di queste tecnologie, contribuendo al dibattito sull'integrazione dell'intelligenza artificiale nella produzione di contenuti digitali.
			
	Parola chiave
	
				AI
ChatGPT
testi
Text Mining
classificazione
			
	Relatore
	
				SCIANDRA, ANDREA
			
	Appare nelle tipologie:
	
				Lauree magistrali

File in questo prodotto:

File	Dimensione	Formato
DalCero_Francesco.pdf accesso aperto Dimensione 12.84 MB Formato Adobe PDF Visualizza/Apri	12.84 MB	Adobe PDF	Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/71206