CHI-Bench: Benchmarking degli Agenti AI per i Flussi di Lavoro Sanitari
C'è un nuovo benchmark chiamato χ-Bench che misura quanto bene gli agenti AI possono automatizzare completamente processi sanitari complessi. Si concentra su tre aree chiave: primo, la densità normativa, che riguarda il prendere decisioni basate su un'ampia gamma di regole mediche, assicurative e operative; secondo, la composizione multi-ruolo, in cui gli agenti assumono diversi ruoli e passano dall'uno all'altro; e terzo, l'interazione multilaterale, che coinvolge conversazioni bidirezionali come revisioni tra pari e contatti con i pazienti. Il benchmark copre tre aree principali: autorizzazione preventiva del fornitore, gestione dell'utilizzo del pagatore e gestione dell'assistenza. Utilizza un simulatore con 20 applicazioni sanitarie e 87 strumenti MCP, tutti guidati da un manuale con oltre 1.290 documenti, ed è stato testato con 30 diversi modelli di agenti.
Fatti principali
- 1. χ-Bench è un benchmark per flussi di lavoro sanitari a lungo termine.
- 2. Testa la densità normativa, la composizione multi-ruolo e l'interazione multilaterale.
- 3. Copre l'autorizzazione preventiva del fornitore, la gestione dell'utilizzo del pagatore e la gestione dell'assistenza.
- 4. Il simulatore include 20 app sanitarie e 87 strumenti MCP.
- 5. Guidato da un manuale di operazioni di assistenza gestita con oltre 1.290 documenti.
- 6. Testato su 30 modelli e architetture di agenti.
- 7. Pubblicato su arXiv con ID 2605.16679.
- 8. Il tipo di annuncio è cross.
Entità
Istituzioni
- arXiv