I Benchmark per LLM Sanitari si Basano su Assunzioni Non Verificabili
Un nuovo articolo su arXiv sostiene che i benchmark per valutare i grandi modelli linguistici (LLM) in ambito sanitario sono insufficienti per prevedere le prestazioni in contesti reali. Gli autori identificano il divario tra valutazione e implementazione come derivante da assunzioni implicite sulle interazioni utente-modello che i benchmark non possono evidenziare. Classificano le assunzioni in due categorie: assunzioni di compito, verificabili dai soli dati conversazionali, e assunzioni di risultato, che richiedono dati sugli esiti e studi comportamentali. Le assunzioni di risultato dipendono dal comportamento umano, che i benchmark non possono osservare direttamente. Un'analisi retrospettiva di uno studio clinico randomizzato (RCT) in ambito sanitario ha mostrato che il divario si suddivide approssimativamente equamente in divario di compito e divario di risultato. Per affrontare questo problema, gli autori propongono un framework chiamato Benchm (probabilmente un errore di battitura per un nuovo benchmark o metodologia). L'articolo è disponibile su arXiv con ID 2605.22612.
Fatti principali
- ID articolo arXiv 2605.22612
- Focus sulla valutazione degli LLM in ambito sanitario
- Identifica il divario valutazione-implementazione
- Classifica le assunzioni in compito e risultato
- Le assunzioni di risultato dipendono dal comportamento umano
- Analisi retrospettiva di un RCT sanitario
- Divari di compito e risultato di dimensioni approssimativamente uguali
- Propone il framework Benchm
Entità
Istituzioni
- arXiv