Reddit e il dibattito sull'intelligenza artificiale: un'analisi statistica dei commenti online per l'esplorazione dell'opinione pubblica

In the current information and network society, the development of digital technologies has profoundly transformed the environment in which social interactions take place, reshaping how information is produced, organized, and transmitted. Online platforms now function as central spaces for accessing information and for active participation in content creation and discussion (User-Generated Content, UGC), assuming a role comparable to Dewey’s Great Community and Habermas’s public sphere. In this context, online comments and, in particular, threaded discussions on online forums represent a valuable source of textual data for analyzing public opinion on socially controversial issues. This study aims to highlight the potential of Statistical Analysis of Textual Data (SATD) as a methodological tool for exploring public opinion. To this end, the online debate on artificial intelligence was selected as a case study, given its growing relevance and highly divisive nature, especially following the widespread diffusion of generative AI. The analyzed corpus consists of 5,245 comments extracted from Reddit, the largest online discussion forum, chosen as the empirical context due to its role as a digital environment in which user interactions contribute to the formation and circulation of opinions. The relevance of SATD, the use of Reddit comments as textual corpora, and the heterogeneity of the public debate on artificial intelligence converge in the following research questions: how is the discourse of Reddit users on artificial intelligence structured? What are the main thematic clusters of the online debate? What relationships emerge between the most frequent and/or distinctive terms? The research is based on the application of two unsupervised methods: text clustering and correspondence analysis. Within a comparative framework, these methods enable the identification of the main articulations of the discourse and reveal the complex system of relationships underlying them.

Nell'attuale information e network society, lo sviluppo delle tecnologie digitali ha profondamente trasformato l’ambiente entro cui si svolgono le interazioni sociali, ridefinendo le modalità di produzione, organizzazione e trasmissione delle informazioni. Le piattaforme online si configurano oggi come spazi centrali di accesso all'informazione e di partecipazione attiva alla creazione e discussione dei contenuti (User-Generated Content, UGC), assumendo una funzione assimilabile alla Great Community di Dewey e alla sfera pubblica di Habermas. In tale contesto, i commenti online e, in particolare, le threaded online conversations tipiche dei forum, rappresentano una fonte rilevante di dati testuali per l'analisi dell’opinione pubblica su tematiche socialmente controverse. Il presente lavoro si propone di evidenziare il potenziale dell’analisi statistica dei dati testuali (ASDT) come strumento metodologico per l'esplorazione dell'opinione pubblica. A tal fine, è stato assunto come caso studio il dibattito online relativo all’intelligenza artificiale, tema di crescente rilevanza e fortemente divisivo, soprattutto a partire dalla diffusione dell'AI generativa. Il corpus analizzato è costituito da 5.245 commenti estratti da Reddit, il più grande forum di discussione online, scelto come contesto empirico in quanto ambiente digitale in cui le interazioni tra utenti contribuiscono alla formazione e alla circolazione di opinioni. L’utilità dell’analisi statistica dei dati testuali, l’utilizzo dei commenti dei redditors come corpora testuali e l’eterogeneità del dibattito pubblico sull’intelligenza artificiale convergono nella seguente domanda di ricerca: in che modo si articola il discorso dei redditors intorno all’intelligenza artificiale? Quali sono i maggiori nuclei tematici del dibattito online? Quali relazioni intercorrono tra i temi e le parole più ricorrenti e/o discriminanti? La ricerca si fonda sull’applicazione di due metodi appartenenti al ramo dei metodi unsupervised, il text clustering e l’analisi delle corrispondenze. Questi consentono, in una costante ottica comparativa, di individuare le principali articolazioni del discorso e svelare il complesso sistema di relazioni tra esse sotteso. I risultati evidenziano la presenza di strutture latenti nel corpus, che riflettono la natura eterogenea del dibattito, e offrono importanti spunti metodologici per future ricerche integrative. L’analisi condotta dimostra, in sintesi, come l’ASDT consenta di esaminare corpora di grandi dimensioni superando i limiti dell’analisi qualitativa, offrendo strumenti efficaci per l’esplorazione dell'opinione pubblica online.