Abstract Background e Obiettivi: Sempre di più i pazienti consultano le intelligenze artificiali (IA) per informazioni sulla salute tramite i chatbot, eppure l’affidabilità e l’accessibilità di contenuti generati dalle IA di condizioni complesse come la disfagia, che affligge il 10-20% della popolazione generale, rimangono non verificati. Abbiamo condotto il primo confronto diretto tra i principali “large language models” (LLM) sull’educazione al paziente affetto da disfagia, valutata da un gruppo internazionale di esperti. Metodi: Quarantasei domande approvate che spaziano attraverso quattro settori clinici sono state sottoposte a ChatGPT 4.0 (OpenAI) e Claude 3.7 (Anthropic) durante Marzo 2025. Dieci esperti, in cieco, da sei Paesi hanno valutato le risposte per precisione scientifica (Likert 5-punti), comprensibilità (Likert 5-punti) e disinformazione (dato binario). La leggibilità è stata misurata con utilizzando l’indice di Leggibilità di Flesch, il livello scolastico Flesch-Kincaid, e l’indice “SMOG”. Per il confronto tra modelli si è fatto ricorso ai test dei ranghi di Wilcoxon con le dimensioni dell’effetto D di Cohen. Risultati: Non sono emerse differenze significative per quanto riguarda l’accuratezza scientifica (ChatGPT: 3.87±0.36 vs Claude: 3.93±0.35; p=0.26; d=0.16), comprensibilità (4.12±0.34 vs 4.15±0.27; p=0.67; d=0.11), o tassi medi di disinformazione (entrambi 2.15; p=0.96). Si evidenziano forti correlazioni inter-modello sull’accuratezza (rs=0.678; p<0.001). E’ importante notare che entrambi i modelli hanno prodotto contenuti ben oltre i livelli di leggibilità raccomandati: indici SMOG di 14.95±2.40 (ChatGPT) e 17.37±2.67 (Claude) anni di educazione scolastica richiesti (p<0.001; d=0.95) contro i 6-7 anni raccomandati. L’Analisi delle variabili Categoriche ha dimostrato che Claude ha generato tre volte più risposte senza disinformazione (19.6% vs 6.5%; p=0.077) Conclusione: I principali chatbot AI dimostrano un’accuratezza equivalente ed accettabile sulla disfagia ma produce contenuti non fruibili alla maggior parte dei pazienti a causa di una eccessiva complessità. La forte correlazione inter-modello suggerisce limitazioni condivise nei dati medici usati per l’addestramento dell’IA. Prima dell’applicazione clinica, la formazione dei pazienti attraverso materiali generati con l’IA richiede un’ottimizzazione obbligatoria della leggibilità per affrontare la significativa lacuna nel campo dell’alfabetizzazione sanitaria identificata in questo studio.

Chatbots basati su AI per l'Educazione del Paziente con Disfagia: una Valutazione Multi-Centrica di Esperti rivela Performance Equivalenti ma Barriere Critiche a livello del Linguaggio Medico-Sanitario

MUNARI, DAVIDE
2025/2026

Abstract

Abstract Background e Obiettivi: Sempre di più i pazienti consultano le intelligenze artificiali (IA) per informazioni sulla salute tramite i chatbot, eppure l’affidabilità e l’accessibilità di contenuti generati dalle IA di condizioni complesse come la disfagia, che affligge il 10-20% della popolazione generale, rimangono non verificati. Abbiamo condotto il primo confronto diretto tra i principali “large language models” (LLM) sull’educazione al paziente affetto da disfagia, valutata da un gruppo internazionale di esperti. Metodi: Quarantasei domande approvate che spaziano attraverso quattro settori clinici sono state sottoposte a ChatGPT 4.0 (OpenAI) e Claude 3.7 (Anthropic) durante Marzo 2025. Dieci esperti, in cieco, da sei Paesi hanno valutato le risposte per precisione scientifica (Likert 5-punti), comprensibilità (Likert 5-punti) e disinformazione (dato binario). La leggibilità è stata misurata con utilizzando l’indice di Leggibilità di Flesch, il livello scolastico Flesch-Kincaid, e l’indice “SMOG”. Per il confronto tra modelli si è fatto ricorso ai test dei ranghi di Wilcoxon con le dimensioni dell’effetto D di Cohen. Risultati: Non sono emerse differenze significative per quanto riguarda l’accuratezza scientifica (ChatGPT: 3.87±0.36 vs Claude: 3.93±0.35; p=0.26; d=0.16), comprensibilità (4.12±0.34 vs 4.15±0.27; p=0.67; d=0.11), o tassi medi di disinformazione (entrambi 2.15; p=0.96). Si evidenziano forti correlazioni inter-modello sull’accuratezza (rs=0.678; p<0.001). E’ importante notare che entrambi i modelli hanno prodotto contenuti ben oltre i livelli di leggibilità raccomandati: indici SMOG di 14.95±2.40 (ChatGPT) e 17.37±2.67 (Claude) anni di educazione scolastica richiesti (p<0.001; d=0.95) contro i 6-7 anni raccomandati. L’Analisi delle variabili Categoriche ha dimostrato che Claude ha generato tre volte più risposte senza disinformazione (19.6% vs 6.5%; p=0.077) Conclusione: I principali chatbot AI dimostrano un’accuratezza equivalente ed accettabile sulla disfagia ma produce contenuti non fruibili alla maggior parte dei pazienti a causa di una eccessiva complessità. La forte correlazione inter-modello suggerisce limitazioni condivise nei dati medici usati per l’addestramento dell’IA. Prima dell’applicazione clinica, la formazione dei pazienti attraverso materiali generati con l’IA richiede un’ottimizzazione obbligatoria della leggibilità per affrontare la significativa lacuna nel campo dell’alfabetizzazione sanitaria identificata in questo studio.
2025
AI Chatbots for Dysphagia Patient Education: A Multi-Center Expert Evaluation Reveal Equivalent Performance but Critical Health Literacy Barriers
Disfagia
AI
Large Language Model
Educazione Paziente
Leggibilità
File in questo prodotto:
File Dimensione Formato  
Munari_Davide.pdf

Accesso riservato

Dimensione 1.65 MB
Formato Adobe PDF
1.65 MB Adobe PDF

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/105331