CodeClinic Benchmark Testa le Abilità di Ragionamento Clinico degli LLM

other · 2026-05-12

C'è un nuovo benchmark chiamato CodeClinic che testa quanto bene gli agenti basati su modelli linguistici di grandi dimensioni possono creare e utilizzare abilità cliniche riutilizzabili, superando le restrizioni dei sistemi di strumenti fissi. Utilizza il dataset MIMIC-IV per automatizzare processi come il monitoraggio dei pazienti in terapia intensiva e il tracciamento della loro salute attraverso registri elettronici. I metodi attuali dipendono da strumenti curati manualmente per identificare la sepsi e valutare l'insufficienza d'organo, che richiedono molta manutenzione da parte di esperti, e la generazione di codice zero-shot spesso porta a ragionamenti errati. CodeClinic ha due compiti principali: il monitoraggio longitudinale in terapia intensiva, che traccia il progresso del paziente, e la ricerca compositiva di informazioni, che valuta quanto bene le abilità si integrino per affrontare domande complesse. Questo benchmark mira a migliorare l'adattabilità a linee guida cliniche specifiche riducendo al contempo la dipendenza da librerie di strumenti rigide.

Fatti principali

CodeClinic è un benchmark per valutare gli agenti LLM nel ragionamento clinico.
Si basa sul dataset MIMIC-IV.
Il benchmark ha due compiti: sorveglianza longitudinale in terapia intensiva e ricerca compositiva di informazioni.
I sistemi esistenti si basano su strumenti clinici curati manualmente per la rilevazione della sepsi e la valutazione dell'insufficienza d'organo.
La manutenzione delle librerie di strumenti richiede uno sforzo sostanziale da parte di esperti.
Le interrogazioni zero-shot o la generazione di codice spesso producono catene di ragionamento inefficienti e inaffidabili.
Il benchmark testa se gli agenti possono sintetizzare e comporre abilità cliniche riutilizzabili.
Mira a migliorare l'adattabilità a politiche cliniche specifiche dell'istituzione.

Entità

—

Fonti

arXiv cs.AI — 2026-05-12