Automatic text recognition is an emerging topic that explores the ability to distinguish between content produced by humans and content generated artificially by large language models (LLMs), such as ChatGPT. Through a detailed analysis of authorship attribution techniques, this essay examines the historical evolution and modern methodologies used to identify a unique and distinctive writing style, capable of characterizing either a person or a computer. The investigation focuses on analyzing a corpus of texts of different origins, applying vectorization techniques and dimensionality reduction to effectively represent the data. The thesis outlines the methodological choices adopted, including the use of advanced classification models based on transformers and embeddings, to develop a system capable of accurately identifying the origin of texts. Through a rigorous comparative evaluation, the results demonstrate that, although language models offer extraordinary generative capabilities, effective tools exist to recognize the artificial imprint in texts. This study highlights the importance of an ethical and transparent use of these technologies, contributing to the debate on the integration of artificial intelligence in the production of digital content.

Il riconoscimento automatico dei testi è un tema emergente che esplora la capacità di distinguere tra contenuti prodotti da esseri umani e quelli generati artificialmente da modelli linguistici di grandi dimensioni (LLM), come ChatGPT. Attraverso un'analisi dettagliata delle tecniche di attribuzione d'autore, questo elaborato esamina l'evoluzione storica e le metodologie moderne utilizzate per identificare lo stile di scrittura unico e distintivo, capace di caratterizzare un individuo o un computer. L'indagine si concentra sull'analisi di un corpus di testi di origine differente, applicando tecniche di vettorizzazione e riduzione della dimensionalità per rappresentare efficacemente i dati. La tesi illustra le scelte metodologiche adottate, tra cui l'uso di modelli di classificazione avanzati basati su trasformatori ed embedding, per sviluppare un sistema capace di identificare con precisione l'origine dei testi. Attraverso una rigorosa valutazione comparativa, i risultati dimostrano che, sebbene i modelli linguistici offrano straordinarie capacità generative, esistono strumenti efficaci per riconoscere l'impronta artificiale nei testi. Il lavoro mette in luce l'importanza di un uso etico e trasparente di queste tecnologie, contribuendo al dibattito sull'integrazione dell'intelligenza artificiale nella produzione di contenuti digitali.

Confronto tra modelli linguistici e approcci tradizionali per l'attribuzione d'autore: un'analisi di testi prodotti da studenti e da ChatGPT

DAL CERO, FRANCESCO
2023/2024

Abstract

Automatic text recognition is an emerging topic that explores the ability to distinguish between content produced by humans and content generated artificially by large language models (LLMs), such as ChatGPT. Through a detailed analysis of authorship attribution techniques, this essay examines the historical evolution and modern methodologies used to identify a unique and distinctive writing style, capable of characterizing either a person or a computer. The investigation focuses on analyzing a corpus of texts of different origins, applying vectorization techniques and dimensionality reduction to effectively represent the data. The thesis outlines the methodological choices adopted, including the use of advanced classification models based on transformers and embeddings, to develop a system capable of accurately identifying the origin of texts. Through a rigorous comparative evaluation, the results demonstrate that, although language models offer extraordinary generative capabilities, effective tools exist to recognize the artificial imprint in texts. This study highlights the importance of an ethical and transparent use of these technologies, contributing to the debate on the integration of artificial intelligence in the production of digital content.
2023
Comparison of language models and traditional approaches for authorship attribution: an analysis of texts produced by students and ChatGPT
Il riconoscimento automatico dei testi è un tema emergente che esplora la capacità di distinguere tra contenuti prodotti da esseri umani e quelli generati artificialmente da modelli linguistici di grandi dimensioni (LLM), come ChatGPT. Attraverso un'analisi dettagliata delle tecniche di attribuzione d'autore, questo elaborato esamina l'evoluzione storica e le metodologie moderne utilizzate per identificare lo stile di scrittura unico e distintivo, capace di caratterizzare un individuo o un computer. L'indagine si concentra sull'analisi di un corpus di testi di origine differente, applicando tecniche di vettorizzazione e riduzione della dimensionalità per rappresentare efficacemente i dati. La tesi illustra le scelte metodologiche adottate, tra cui l'uso di modelli di classificazione avanzati basati su trasformatori ed embedding, per sviluppare un sistema capace di identificare con precisione l'origine dei testi. Attraverso una rigorosa valutazione comparativa, i risultati dimostrano che, sebbene i modelli linguistici offrano straordinarie capacità generative, esistono strumenti efficaci per riconoscere l'impronta artificiale nei testi. Il lavoro mette in luce l'importanza di un uso etico e trasparente di queste tecnologie, contribuendo al dibattito sull'integrazione dell'intelligenza artificiale nella produzione di contenuti digitali.
AI
ChatGPT
testi
Text Mining
classificazione
File in questo prodotto:
File Dimensione Formato  
DalCero_Francesco.pdf

accesso aperto

Dimensione 12.84 MB
Formato Adobe PDF
12.84 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/71206