Il framework SaFE-Scale misura la sicurezza dei LLM clinici in diverse condizioni di scala
Uno studio recente ha presentato SaFE-Scale, un nuovo framework progettato per valutare la sicurezza nei grandi modelli linguistici (LLM) clinici, considerando fattori come la scala del modello, la qualità delle evidenze, i metodi di recupero, l'esposizione al contesto e i requisiti computazionali durante l'inferenza. I ricercatori sottolineano che un semplice aumento dell'accuratezza non garantisce risultati medici più sicuri, poiché pochi errori critici possono oscurare significativamente le prestazioni complessive. Per applicare questo framework, hanno introdotto RadSaFE-200, un benchmark composto da 200 domande a scelta multipla incentrate sulla sicurezza in radiologia, con evidenze pulite e conflittuali definite da clinici, insieme a etichette che identificano errori ad alto rischio, risposte non sicure e contraddizioni nelle evidenze. La valutazione ha incluso 34 LLM distribuiti localmente in sei diversi scenari di deployment, come il prompting a libro chiuso (zero-shot) e le evidenze pulite. Questa ricerca è disponibile su arXiv con l'identificatore 2605.04039.
Fatti principali
- Il framework SaFE-Scale misura la sicurezza dei LLM clinici in base a scala del modello, qualità delle evidenze, strategia di recupero, esposizione al contesto e calcolo durante l'inferenza.
- Il benchmark RadSaFE-200 include 200 domande a scelta multipla con evidenze pulite e conflittuali definite da clinici, e etichette a livello di opzione.
- Sono stati valutati 34 LLM distribuiti localmente in sei condizioni di deployment.
- Lo studio sostiene che una maggiore accuratezza non implica un comportamento più sicuro in medicina.
- La ricerca è pubblicata su arXiv con l'identificatore 2605.04039.
Entità
Istituzioni
- arXiv