CodeClinic Benchmark Testa le Abilità di Ragionamento Clinico degli LLM
C'è un nuovo benchmark chiamato CodeClinic che testa quanto bene gli agenti basati su modelli linguistici di grandi dimensioni possono creare e utilizzare abilità cliniche riutilizzabili, superando le restrizioni dei sistemi di strumenti fissi. Utilizza il dataset MIMIC-IV per automatizzare processi come il monitoraggio dei pazienti in terapia intensiva e il tracciamento della loro salute attraverso registri elettronici. I metodi attuali dipendono da strumenti curati manualmente per identificare la sepsi e valutare l'insufficienza d'organo, che richiedono molta manutenzione da parte di esperti, e la generazione di codice zero-shot spesso porta a ragionamenti errati. CodeClinic ha due compiti principali: il monitoraggio longitudinale in terapia intensiva, che traccia il progresso del paziente, e la ricerca compositiva di informazioni, che valuta quanto bene le abilità si integrino per affrontare domande complesse. Questo benchmark mira a migliorare l'adattabilità a linee guida cliniche specifiche riducendo al contempo la dipendenza da librerie di strumenti rigide.
Fatti principali
- CodeClinic è un benchmark per valutare gli agenti LLM nel ragionamento clinico.
- Si basa sul dataset MIMIC-IV.
- Il benchmark ha due compiti: sorveglianza longitudinale in terapia intensiva e ricerca compositiva di informazioni.
- I sistemi esistenti si basano su strumenti clinici curati manualmente per la rilevazione della sepsi e la valutazione dell'insufficienza d'organo.
- La manutenzione delle librerie di strumenti richiede uno sforzo sostanziale da parte di esperti.
- Le interrogazioni zero-shot o la generazione di codice spesso producono catene di ragionamento inefficienti e inaffidabili.
- Il benchmark testa se gli agenti possono sintetizzare e comporre abilità cliniche riutilizzabili.
- Mira a migliorare l'adattabilità a politiche cliniche specifiche dell'istituzione.
Entità
—