Abstract Background e Obiettivi: Sempre di più i pazienti consultano le intelligenze artificiali (IA) per informazioni sulla salute tramite i chatbot, eppure l’affidabilità e l’accessibilità di contenuti generati dalle IA di condizioni complesse come la disfagia, che affligge il 10-20% della popolazione generale, rimangono non verificati. Abbiamo condotto il primo confronto diretto tra i principali “large language models” (LLM) sull’educazione al paziente affetto da disfagia, valutata da un gruppo internazionale di esperti. Metodi: Quarantasei domande approvate che spaziano attraverso quattro settori clinici sono state sottoposte a ChatGPT 4.0 (OpenAI) e Claude 3.7 (Anthropic) durante Marzo 2025. Dieci esperti, in cieco, da sei Paesi hanno valutato le risposte per precisione scientifica (Likert 5-punti), comprensibilità (Likert 5-punti) e disinformazione (dato binario). La leggibilità è stata misurata con utilizzando l’indice di Leggibilità di Flesch, il livello scolastico Flesch-Kincaid, e l’indice “SMOG”. Per il confronto tra modelli si è fatto ricorso ai test dei ranghi di Wilcoxon con le dimensioni dell’effetto D di Cohen. Risultati: Non sono emerse differenze significative per quanto riguarda l’accuratezza scientifica (ChatGPT: 3.87±0.36 vs Claude: 3.93±0.35; p=0.26; d=0.16), comprensibilità (4.12±0.34 vs 4.15±0.27; p=0.67; d=0.11), o tassi medi di disinformazione (entrambi 2.15; p=0.96). Si evidenziano forti correlazioni inter-modello sull’accuratezza (rs=0.678; p<0.001). E’ importante notare che entrambi i modelli hanno prodotto contenuti ben oltre i livelli di leggibilità raccomandati: indici SMOG di 14.95±2.40 (ChatGPT) e 17.37±2.67 (Claude) anni di educazione scolastica richiesti (p<0.001; d=0.95) contro i 6-7 anni raccomandati. L’Analisi delle variabili Categoriche ha dimostrato che Claude ha generato tre volte più risposte senza disinformazione (19.6% vs 6.5%; p=0.077) Conclusione: I principali chatbot AI dimostrano un’accuratezza equivalente ed accettabile sulla disfagia ma produce contenuti non fruibili alla maggior parte dei pazienti a causa di una eccessiva complessità. La forte correlazione inter-modello suggerisce limitazioni condivise nei dati medici usati per l’addestramento dell’IA. Prima dell’applicazione clinica, la formazione dei pazienti attraverso materiali generati con l’IA richiede un’ottimizzazione obbligatoria della leggibilità per affrontare la significativa lacuna nel campo dell’alfabetizzazione sanitaria identificata in questo studio.
Chatbots basati su AI per l'Educazione del Paziente con Disfagia: una Valutazione Multi-Centrica di Esperti rivela Performance Equivalenti ma Barriere Critiche a livello del Linguaggio Medico-Sanitario
MUNARI, DAVIDE
2025/2026
Abstract
Abstract Background e Obiettivi: Sempre di più i pazienti consultano le intelligenze artificiali (IA) per informazioni sulla salute tramite i chatbot, eppure l’affidabilità e l’accessibilità di contenuti generati dalle IA di condizioni complesse come la disfagia, che affligge il 10-20% della popolazione generale, rimangono non verificati. Abbiamo condotto il primo confronto diretto tra i principali “large language models” (LLM) sull’educazione al paziente affetto da disfagia, valutata da un gruppo internazionale di esperti. Metodi: Quarantasei domande approvate che spaziano attraverso quattro settori clinici sono state sottoposte a ChatGPT 4.0 (OpenAI) e Claude 3.7 (Anthropic) durante Marzo 2025. Dieci esperti, in cieco, da sei Paesi hanno valutato le risposte per precisione scientifica (Likert 5-punti), comprensibilità (Likert 5-punti) e disinformazione (dato binario). La leggibilità è stata misurata con utilizzando l’indice di Leggibilità di Flesch, il livello scolastico Flesch-Kincaid, e l’indice “SMOG”. Per il confronto tra modelli si è fatto ricorso ai test dei ranghi di Wilcoxon con le dimensioni dell’effetto D di Cohen. Risultati: Non sono emerse differenze significative per quanto riguarda l’accuratezza scientifica (ChatGPT: 3.87±0.36 vs Claude: 3.93±0.35; p=0.26; d=0.16), comprensibilità (4.12±0.34 vs 4.15±0.27; p=0.67; d=0.11), o tassi medi di disinformazione (entrambi 2.15; p=0.96). Si evidenziano forti correlazioni inter-modello sull’accuratezza (rs=0.678; p<0.001). E’ importante notare che entrambi i modelli hanno prodotto contenuti ben oltre i livelli di leggibilità raccomandati: indici SMOG di 14.95±2.40 (ChatGPT) e 17.37±2.67 (Claude) anni di educazione scolastica richiesti (p<0.001; d=0.95) contro i 6-7 anni raccomandati. L’Analisi delle variabili Categoriche ha dimostrato che Claude ha generato tre volte più risposte senza disinformazione (19.6% vs 6.5%; p=0.077) Conclusione: I principali chatbot AI dimostrano un’accuratezza equivalente ed accettabile sulla disfagia ma produce contenuti non fruibili alla maggior parte dei pazienti a causa di una eccessiva complessità. La forte correlazione inter-modello suggerisce limitazioni condivise nei dati medici usati per l’addestramento dell’IA. Prima dell’applicazione clinica, la formazione dei pazienti attraverso materiali generati con l’IA richiede un’ottimizzazione obbligatoria della leggibilità per affrontare la significativa lacuna nel campo dell’alfabetizzazione sanitaria identificata in questo studio.| File | Dimensione | Formato | |
|---|---|---|---|
|
Munari_Davide.pdf
Accesso riservato
Dimensione
1.65 MB
Formato
Adobe PDF
|
1.65 MB | Adobe PDF |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/105331