Artificial intelligence for the surveillance of healthcare-associated infections: a systematic review

BACKGROUND Healthcare-associated infections (HAIs) are among the most frequent adverse events in health service delivery, exerting a significant toll on clinical outcomes and financial resources. At least 30% of HAIs are preventable through infection prevention and control programs, which depends on effective HAIs surveillance. Traditional manual surveillance is labor intensive, subject to interobserver variability and conducted only for selected wards, infection types, or procedures due to resource constraints. Artificial intelligence (AI) could automate the surveillance of HAIs and enable prediction-guided prevention. However, the integration of AI into clinical practice poses numerous challenges, including issues related to data quantity and quality, model interpretability, reproducibility, and ethical considerations. OBJECTIVES We aim to assess the current performance of AI models in predicting and detecting HAIs, their eventual deployment in clinical practice, and their measured impact. We also aim to collect evidence on whether the studies addressed the challenges faced when using AI for clinical practice. METHODS We conducted a systematic review following the PRISMA guidelines to appraise the available evidence on the performance, implementation, and impact of AI models for HAI surveillance, the variables used by the models, and the scientific quality of these publications in terms of AI techniques used. RESULTS Of 2,834 identified citations, 254 studies were included in the review. The performances of AI models were generally high, but no metric was assessed universally across all studies. Only 35.4% of the studies compared AI performance with other existing methods. AI models achieved better or comparable performance when compared to clinical scores and manual surveillance. However, some models designed for SSI detection fared worse than or as well as rule-based approaches. Types of input fed to the algorithms were mostly flat vector or time series data. There was a wide heterogeneity in variables used, with the most frequent being demographics, blood tests, and vital signs. Most models used a large quantity of different variables to make predictions. Less than 8% of the studies measured the possible impact of AI adoption. User friendly tools for deployment were developed only for 12.2% of the proposed models, and only 9 of them were teste in clinical practice. Less than half of the studies addressed the issues of data quality, reproducibility and explainability. Only 11.8% of the models were externally validated. DISCUSSION AI models achieved relatively high performance, but it is still unclear which performance level is acceptable for clinical practice, and further study to compare AI models to less complex but interpretable rule-based algorithms should be conducted. The wide heterogeneity amongst included studies prevented us from deriving a meta-analysis. The frequency with which variables were included across the algorithms did not necessarily correlate with their predictive value. The lack of sufficient data on AI impact assessment, external validation, and techniques for addressing class imbalance, reproducibility and discriminatory bias denotes that we are still far from achieving clinically useful, reproducible, and fair predictions. CONCLUSIONS Overall, the evidence on AI performance for HAI surveillance and prediction is promising, but model deployment in clinical practice is still rare. Further research is needed on impact assessment and performance comparison with other existing methods, and additional efforts are required to enhance interpretability and reproducibility.

BACKGROUND Le infezioni correlate all'assistenza sanitaria (ICA) sono tra gli eventi avversi più frequenti nella prestazione dei servizi sanitari, con un impatto significativo sugli outcomes clinici e sulle risorse finanziarie. Almeno il 30% delle ICA è prevenibile attraverso programmi di prevenzione e controllo delle infezioni, che dipendono da una sorveglianza efficace delle ICA. La sorveglianza tradizionale manuale è laboriosa e soggetta a variabilità inter-osservatore, e viene effettuata solo per alcuni reparti selezionati, per alcuni tipi di infezioni o di procedure, a causa della mancanza di risorse sufficienti. L'intelligenza artificiale (IA) potrebbe automatizzare la sorveglianza delle ICA e consentire una prevenzione guidata dalla predizione delle infezioni. Tuttavia, l'integrazione dell'AI nella pratica clinica pone numerose sfide, tra cui problemi legati alla quantità e alla qualità dei dati, all'interpretabilità dei modelli, alla riproducibilità e alle considerazioni etiche. OBIETTIVI Valutare le attuali prestazioni dei modelli di IA nella predizione e nella rilevazione delle ICA, la loro eventuale implementazione nella pratica clinica e il loro impatto. Inoltre, valutare se gli studi hanno utilizzato tecniche per superare le sfide poste dall’uso dell'IA per la pratica clinica. METODI Abbiamo condotto una revisione sistematica seguendo le linee guida PRISMA per valutare le evidenze sulle prestazioni, l'implementazione e l'impatto dei modelli di IA per la sorveglianza delle ICA, le variabili utilizzate dai modelli, e la qualità scientifica di queste pubblicazioni in termini di tecniche di IA utilizzate. RISULTATI Di 2.834 citazioni identificate, 254 studi sono stati inclusi nella revisione. Le prestazioni dei modelli AI erano generalmente elevate, ma nessuna metrica è stata valutata universalmente in tutti gli studi. Solo il 35,4% degli studi ha confrontato le prestazioni dell’IA con altri metodi esistenti. I modelli di IA hanno ottenuto prestazioni migliori o comparabili rispetto agli score clinici e alla sorveglianza manuale. Tuttavia, alcuni modelli progettati per la rilevazione delle SSI hanno ottenuto risultati peggiori o paragonabili rispetto ai metodi basati su regole. I tipi di input “dati in pasto” agli algoritmi erano principalmente dati vettoriali o serie temporali. C'è una vasta eterogeneità nelle variabili utilizzate, sia in termini di numero che di tipo. Le variabili più frequenti sono state dati demografici, esami del sangue e parametri vitali. La maggior parte dei modelli ha utilizzato una grande quantità di variabili diverse per fare previsioni. Meno dell'8% degli studi ha misurato il possibile impatto dell'adozione dell'IA. Strumenti user-friendly per l'implementazione nella pratica clinica sono stati sviluppati solo per il 12,2% dei modelli proposti, e solo 9 di essi sono stati testati in pratica clinica. Meno della metà degli studi ha affrontato le questioni legate alla qualità dei dati, alla riproducibilità e all’interpretabilità. Solo l'11,8% dei modelli è stato validato esternamente. DISCUSSIONE I modelli di IA hanno ottenuto prestazioni relativamente elevate, ma non è ancora chiaro quale livello di prestazione sia accettabile per la pratica clinica. Servirebbero ulteriori studi per confrontare i modelli di IA con algoritmi basati su regole, che sono meno complessi ma intrinsecamente interpretabili. L'ampia eterogeneità tra gli studi inclusi ci ha impedito di trarre una meta-analisi. La frequenza con cui le variabili sono state incluse negli algoritmi non correla necessariamente con il loro valore predittivo. La mancanza di dati sufficienti sull'valutazione dell'AI, sulla convalida esterna e sulle tecniche per gestire i dataset sbilanciati, la riproducibilità e i bias discriminatori denota che siamo ancora lontani dall'ottenere previsioni clinicamente utili, riproducibili e prive di bias. CONCLUSIONI Nel complesso,