EHRBench: Nuovo Benchmark per il Processo Decisionale Clinico dei LLM
I ricercatori hanno introdotto EHRBench, un benchmark automatizzato e affidabile basato su cartelle cliniche elettroniche (EHR) per valutare i modelli linguistici di grandi dimensioni (LLM) nei compiti di decisione clinica (CDM). Il benchmark risponde alla necessità di una valutazione scalabile e di alta qualità dei LLM nei flussi di lavoro clinici reali, dove i modelli devono inferire diagnosi, selezionare trattamenti o prevedere esiti sanitari in condizioni di evidenza incompleta. EHRBench utilizza un pipeline automatizzato per garantire sia scala che qualità, ancorando i compiti a dati reali dei pazienti per testare conoscenze biomediche sostanziali e inferenza clinica. Il lavoro evidenzia il ruolo crescente dei LLM in sanità, sottolineando al contempo la comprensione insufficiente della loro affidabilità in scenari pratici di CDM.
Fatti principali
- EHRBench è un benchmark automatizzato e affidabile basato su EHR per il processo decisionale clinico dei LLM.
- Il benchmark è descritto in un articolo su arXiv (2605.30637).
- Il processo decisionale clinico implica inferire diagnosi, selezionare trattamenti o anticipare esiti sanitari.
- I LLM sono sempre più utilizzati per decisioni cliniche grazie alle capacità linguistiche e alla conoscenza biomedica.
- Il benchmark mira a colmare le lacune nella valutazione dell'affidabilità dei LLM su compiti clinici reali.
- Il pipeline è progettato per garantire sia scala che qualità della valutazione.
- I compiti sono ancorati a EHR reali dei pazienti per richiedere conoscenze biomediche sostanziali.
- Il lavoro enfatizza la necessità di comprendere l'affidabilità dei LLM in contesti clinici.
Entità
Istituzioni
- arXiv