The thesis addresses the distinction between human-written texts and AI-generated texts in two different stages. After an exploratory analysis and essential pre-processing, topic modeling and topic mining techniques are applied to describe the corpus’s thematic structure and assess the possible presence of differences between the two groups of texts. Subsequently, using classification models, the aim is to discriminate between human and generated texts by comparing lexical representations (frequency-based) and embeddings; interpretability is supported by SHAP values, used to highlight which features are most relevant in the models’ decisions.

La tesi affronta la distinzione tra testi umani e testi generati dall’AI in due passaggi differenti. Dopo un’analisi esplorativa e un essenziale pre-processing, si applicano tecniche di topic modeling e topic mining per descrivere la struttura tematica del corpus e valutare l’eventuale presenza di differenze tra i due gruppi di testi. In seguito, mediante modelli di classificazione si mira a discriminare testi umani e generati, confrontando rappresentazioni lessicali (basate su frequenze) ed embedding; l’interpretabilità è supportata dai SHAP values, impiegati per evidenziare quali caratteristiche risultino più rilevanti nelle decisioni dei modelli.

Analisi tematica e classificazione di testi umani e generati dall'AI

CONTERNO, JACOPO
2024/2025

Abstract

The thesis addresses the distinction between human-written texts and AI-generated texts in two different stages. After an exploratory analysis and essential pre-processing, topic modeling and topic mining techniques are applied to describe the corpus’s thematic structure and assess the possible presence of differences between the two groups of texts. Subsequently, using classification models, the aim is to discriminate between human and generated texts by comparing lexical representations (frequency-based) and embeddings; interpretability is supported by SHAP values, used to highlight which features are most relevant in the models’ decisions.
2024
Thematic Analysis and Classification of Human and AI-Generated Texts
La tesi affronta la distinzione tra testi umani e testi generati dall’AI in due passaggi differenti. Dopo un’analisi esplorativa e un essenziale pre-processing, si applicano tecniche di topic modeling e topic mining per descrivere la struttura tematica del corpus e valutare l’eventuale presenza di differenze tra i due gruppi di testi. In seguito, mediante modelli di classificazione si mira a discriminare testi umani e generati, confrontando rappresentazioni lessicali (basate su frequenze) ed embedding; l’interpretabilità è supportata dai SHAP values, impiegati per evidenziare quali caratteristiche risultino più rilevanti nelle decisioni dei modelli.
AI
Topic Modeling
Classification
File in questo prodotto:
File Dimensione Formato  
Conterno_Jacopo.pdf

accesso aperto

Dimensione 6.14 MB
Formato Adobe PDF
6.14 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/98936