RxEval: Benchmarking della Raccomandazione Farmacologica degli LLM

ai-technology · 2026-05-16

Un nuovo benchmark chiamato RxEval è stato sviluppato dai ricercatori per valutare i modelli linguistici di grandi dimensioni (LLM) nel contesto delle raccomandazioni farmacologiche per pazienti ricoverati. A differenza dei benchmark precedenti che si concentrano su ampi codici farmacologici a livello di ricovero, RxEval si rivolge al livello di prescrizione attraverso domande a scelta multipla. Ogni domanda include un profilo completo del paziente e una storia clinica cronologica, richiedendo la selezione di combinazioni precise di farmaco-dosaggio-via da prescrizioni reali, insieme a distrattori specifici per il paziente creati attraverso perturbazione della catena di ragionamento. Il benchmark presenta 1.547 domande su 584 pazienti, coprendo 18 categorie diagnostiche e 969 farmaci distinti. Una valutazione di 16 LLM rivela che RxEval è sia impegnativo che discriminante, con punteggi F1 compresi tra 0,2 e 0,6, sottolineando il divario tra le prestazioni attuali degli LLM e le esigenze del processo decisionale clinico.

Fatti principali

RxEval è un benchmark a livello di prescrizione per la raccomandazione farmacologica degli LLM.
Utilizza domande a scelta multipla con profili dei pazienti e traiettorie cliniche.
Il benchmark include 1.547 domande, 584 pazienti, 18 categorie diagnostiche e 969 farmaci.
Sono stati valutati 16 LLM, con punteggi F1 compresi tra 0,2 e 0,6.
I benchmark esistenti non riescono a catturare le decisioni prescrittive per singolo momento temporale.
I distrattori sono generati tramite perturbazione della catena di ragionamento.
Il compito richiede la selezione di triple farmaco-dosaggio-via.
RxEval rivela un divario tra le prestazioni degli LLM e le esigenze cliniche.

Entità

—

Fonti

arXiv cs.AI — 2026-05-16