I LLM Mostrano un Calo dell'Accuratezza Diagnostica nel Ragionamento Clinico Interattivo

ai-technology · 2026-05-23

Un nuovo studio pubblicato su arXiv (presentato a maggio 2025) valuta i grandi modelli linguistici nella ricerca attiva di prove per la diagnosi clinica, scoprendo che le interazioni multi-turno riducono l'accuratezza del 12,75% e la qualità delle prove del 24,36% rispetto ai benchmark statici con contesto completo. I ricercatori hanno costruito un simulatore di pazienti standardizzati ispirato all'OSCE e un benchmark controllato con 468 casi su 15 modelli. L'analisi degli errori attribuisce i cali a una chiusura diagnostica prematura e a un interrogatorio inefficiente. I risultati suggeriscono che i benchmark statici sovrastimano le prestazioni dei LLM in contesti interattivi, motivando una valutazione complementare per un supporto decisionale clinico più sicuro.

Fatti principali

Lo studio introduce un simulatore di pazienti standardizzati ispirato all'OSCE per la valutazione dei LLM.
Il benchmark include 468 casi e 15 modelli.
La ricerca attiva di prove multi-turno riduce l'accuratezza diagnostica del 12,75%.
La qualità delle prove a supporto diminuisce del 24,36% rispetto alla valutazione con contesto completo.
Gli errori sono collegati a chiusura diagnostica prematura e interrogatorio inefficiente.
I benchmark statici con contesto completo potrebbero sovrastimare le prestazioni in contesti interattivi.
La ricerca è stata presentata su arXiv a maggio 2025.
Lo studio si concentra sulla sicurezza del supporto decisionale clinico.

I LLM Mostrano un Calo dell'Accuratezza Diagnostica nel Ragionamento Clinico Interattivo

Fatti principali

Entità

Istituzioni

Fonti