PhysicianBench: Nuovo Benchmark per Agenti LLM in Ambienti EHR

ai-technology · 2026-05-06

Un nuovo benchmark chiamato PhysicianBench è stato sviluppato da ricercatori per valutare gli agenti dei modelli linguistici di grandi dimensioni (LLM) su compiti svolti dai medici in contesti di cartelle cliniche elettroniche (EHR). A differenza dei benchmark attuali che enfatizzano conoscenze statiche o azioni isolate, PhysicianBench si concentra su flussi di lavoro completi che riflettono le pratiche cliniche reali. Include 100 compiti derivati da scenari di consultazione autentici che coinvolgono sia medici di base che specialisti, con ogni compito valutato da un panel distinto di dottori. Questi compiti sono implementati in un ambiente EHR che utilizza dati reali dei pazienti e accessibili tramite API standard di fornitori EHR commerciali. Coprono 21 specialità, tra cui cardiologia, endocrinologia, oncologia e psichiatria, e comprendono vari tipi di flussi di lavoro come l'interpretazione diagnostica.

Fatti principali

1. PhysicianBench valuta gli agenti LLM su compiti medici in ambienti EHR.
2. Comprende 100 compiti a lungo termine derivati da casi di consultazione reali.
3. I compiti sono revisionati indipendentemente da un panel di medici.
4. I compiti utilizzano cartelle cliniche reali e API EHR standard.
5. I compiti coprono 21 specialità tra cui cardiologia, endocrinologia, oncologia, psichiatria.
6. I benchmark esistenti non riescono a catturare flussi di lavoro compositi a lungo termine.
7. PhysicianBench colma il divario nella valutazione degli agenti LLM su flussi di lavoro clinici reali.
8. Il benchmark è introdotto nell'articolo arXiv 2605.02240.

PhysicianBench: Nuovo Benchmark per Agenti LLM in Ambienti EHR

Fatti principali

Entità

Istituzioni

Fonti