Chatbots basati su AI per l'Educazione del Paziente con Disfagia: una Valutazione Multi-Centrica di Esperti rivela Performance Equivalenti ma Barriere Critiche a livello del Linguaggio Medico-Sanitario

Abstract Background e Obiettivi: Sempre di più i pazienti consultano le intelligenze artificiali (IA) per informazioni sulla salute tramite i chatbot, eppure l’affidabilità e l’accessibilità di contenuti generati dalle IA di condizioni complesse come la disfagia, che affligge il 10-20% della popolazione generale, rimangono non verificati. Abbiamo condotto il primo confronto diretto tra i principali “large language models” (LLM) sull’educazione al paziente affetto da disfagia, valutata da un gruppo internazionale di esperti. Metodi: Quarantasei domande approvate che spaziano attraverso quattro settori clinici sono state sottoposte a ChatGPT 4.0 (OpenAI) e Claude 3.7 (Anthropic) durante Marzo 2025. Dieci esperti, in cieco, da sei Paesi hanno valutato le risposte per precisione scientifica (Likert 5-punti), comprensibilità (Likert 5-punti) e disinformazione (dato binario). La leggibilità è stata misurata con utilizzando l’indice di Leggibilità di Flesch, il livello scolastico Flesch-Kincaid, e l’indice “SMOG”. Per il confronto tra modelli si è fatto ricorso ai test dei ranghi di Wilcoxon con le dimensioni dell’effetto D di Cohen. Risultati: Non sono emerse differenze significative per quanto riguarda l’accuratezza scientifica (ChatGPT: 3.87±0.36 vs Claude: 3.93±0.35; p=0.26; d=0.16), comprensibilità (4.12±0.34 vs 4.15±0.27; p=0.67; d=0.11), o tassi medi di disinformazione (entrambi 2.15; p=0.96). Si evidenziano forti correlazioni inter-modello sull’accuratezza (rs=0.678; p<0.001). E’ importante notare che entrambi i modelli hanno prodotto contenuti ben oltre i livelli di leggibilità raccomandati: indici SMOG di 14.95±2.40 (ChatGPT) e 17.37±2.67 (Claude) anni di educazione scolastica richiesti (p<0.001; d=0.95) contro i 6-7 anni raccomandati. L’Analisi delle variabili Categoriche ha dimostrato che Claude ha generato tre volte più risposte senza disinformazione (19.6% vs 6.5%; p=0.077) Conclusione: I principali chatbot AI dimostrano un’accuratezza equivalente ed accettabile sulla disfagia ma produce contenuti non fruibili alla maggior parte dei pazienti a causa di una eccessiva complessità. La forte correlazione inter-modello suggerisce limitazioni condivise nei dati medici usati per l’addestramento dell’IA. Prima dell’applicazione clinica, la formazione dei pazienti attraverso materiali generati con l’IA richiede un’ottimizzazione obbligatoria della leggibilità per affrontare la significativa lacuna nel campo dell’alfabetizzazione sanitaria identificata in questo studio.

Chatbots basati su AI per l'Educazione del Paziente con Disfagia: una Valutazione Multi-Centrica di Esperti rivela Performance Equivalenti ma Barriere Critiche a livello del Linguaggio Medico-Sanitario

MUNARI, DAVIDE

2025/2026

Abstract

Abstract Background e Obiettivi: Sempre di più i pazienti consultano le intelligenze artificiali (IA) per informazioni sulla salute tramite i chatbot, eppure l’affidabilità e l’accessibilità di contenuti generati dalle IA di condizioni complesse come la disfagia, che affligge il 10-20% della popolazione generale, rimangono non verificati. Abbiamo condotto il primo confronto diretto tra i principali “large language models” (LLM) sull’educazione al paziente affetto da disfagia, valutata da un gruppo internazionale di esperti. Metodi: Quarantasei domande approvate che spaziano attraverso quattro settori clinici sono state sottoposte a ChatGPT 4.0 (OpenAI) e Claude 3.7 (Anthropic) durante Marzo 2025. Dieci esperti, in cieco, da sei Paesi hanno valutato le risposte per precisione scientifica (Likert 5-punti), comprensibilità (Likert 5-punti) e disinformazione (dato binario). La leggibilità è stata misurata con utilizzando l’indice di Leggibilità di Flesch, il livello scolastico Flesch-Kincaid, e l’indice “SMOG”. Per il confronto tra modelli si è fatto ricorso ai test dei ranghi di Wilcoxon con le dimensioni dell’effetto D di Cohen. Risultati: Non sono emerse differenze significative per quanto riguarda l’accuratezza scientifica (ChatGPT: 3.87±0.36 vs Claude: 3.93±0.35; p=0.26; d=0.16), comprensibilità (4.12±0.34 vs 4.15±0.27; p=0.67; d=0.11), o tassi medi di disinformazione (entrambi 2.15; p=0.96). Si evidenziano forti correlazioni inter-modello sull’accuratezza (rs=0.678; p<0.001). E’ importante notare che entrambi i modelli hanno prodotto contenuti ben oltre i livelli di leggibilità raccomandati: indici SMOG di 14.95±2.40 (ChatGPT) e 17.37±2.67 (Claude) anni di educazione scolastica richiesti (p<0.001; d=0.95) contro i 6-7 anni raccomandati. L’Analisi delle variabili Categoriche ha dimostrato che Claude ha generato tre volte più risposte senza disinformazione (19.6% vs 6.5%; p=0.077) Conclusione: I principali chatbot AI dimostrano un’accuratezza equivalente ed accettabile sulla disfagia ma produce contenuti non fruibili alla maggior parte dei pazienti a causa di una eccessiva complessità. La forte correlazione inter-modello suggerisce limitazioni condivise nei dati medici usati per l’addestramento dell’IA. Prima dell’applicazione clinica, la formazione dei pazienti attraverso materiali generati con l’IA richiede un’ottimizzazione obbligatoria della leggibilità per affrontare la significativa lacuna nel campo dell’alfabetizzazione sanitaria identificata in questo studio.

Scheda

Scheda DC

	Facoltà/Dipartimento
	
				Dipartimento di Medicina - DIMED
			
	Corso di studio
	
				MEDICINA E CHIRURGIA Laurea Magistrale (D.M. 270/2004)
			
	Anno Accademico
	
				2025
			
	Titolo inglese
	
				AI Chatbots for Dysphagia Patient Education: A Multi-Center Expert Evaluation Reveal Equivalent Performance but Critical Health Literacy Barriers
			
	Parola chiave
	
				Disfagia
AI
Large Language Model
Educazione Paziente
Leggibilità
			
	Relatore
	
				SAVARINO, EDOARDO VINCENZO
			
	Appare nelle tipologie:
	
				Lauree magistrali a ciclo unico

File in questo prodotto:

File	Dimensione	Formato
Munari_Davide.pdf Accesso riservato Dimensione 1.65 MB Formato Adobe PDF	1.65 MB	Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/105331