RxEval: Benchmarking della Raccomandazione Farmacologica degli LLM
Un nuovo benchmark chiamato RxEval è stato sviluppato dai ricercatori per valutare i modelli linguistici di grandi dimensioni (LLM) nel contesto delle raccomandazioni farmacologiche per pazienti ricoverati. A differenza dei benchmark precedenti che si concentrano su ampi codici farmacologici a livello di ricovero, RxEval si rivolge al livello di prescrizione attraverso domande a scelta multipla. Ogni domanda include un profilo completo del paziente e una storia clinica cronologica, richiedendo la selezione di combinazioni precise di farmaco-dosaggio-via da prescrizioni reali, insieme a distrattori specifici per il paziente creati attraverso perturbazione della catena di ragionamento. Il benchmark presenta 1.547 domande su 584 pazienti, coprendo 18 categorie diagnostiche e 969 farmaci distinti. Una valutazione di 16 LLM rivela che RxEval è sia impegnativo che discriminante, con punteggi F1 compresi tra 0,2 e 0,6, sottolineando il divario tra le prestazioni attuali degli LLM e le esigenze del processo decisionale clinico.
Fatti principali
- RxEval è un benchmark a livello di prescrizione per la raccomandazione farmacologica degli LLM.
- Utilizza domande a scelta multipla con profili dei pazienti e traiettorie cliniche.
- Il benchmark include 1.547 domande, 584 pazienti, 18 categorie diagnostiche e 969 farmaci.
- Sono stati valutati 16 LLM, con punteggi F1 compresi tra 0,2 e 0,6.
- I benchmark esistenti non riescono a catturare le decisioni prescrittive per singolo momento temporale.
- I distrattori sono generati tramite perturbazione della catena di ragionamento.
- Il compito richiede la selezione di triple farmaco-dosaggio-via.
- RxEval rivela un divario tra le prestazioni degli LLM e le esigenze cliniche.
Entità
—