Il framework CLEAR rivela problemi di affidabilità dei LLM in contesti medici
Un nuovo framework chiamato CLEAR (CLinical Evaluation of Ambiguity and Reliability) mostra come rumore e ambiguità degradino le prestazioni dei modelli linguistici di grandi dimensioni (LLM) nei benchmark medici. Sviluppato da ricercatori e pubblicato su arXiv, CLEAR perturba sistematicamente il numero di opzioni di risposta, la presenza della verità di base e l'inquadramento semantico su tre benchmark e 17 LLM. I risultati mostrano che aumentare le risposte plausibili riduce l'accuratezza e la capacità di astensione, specialmente quando l'inquadramento dell'astensione passa da un rifiuto assertivo a una formulazione incerta. Lo studio evidenzia i limiti degli attuali metodi di valutazione che non riflettono l'ambiguità medica del mondo reale.
Fatti principali
- Il framework CLEAR è stato introdotto per valutare l'affidabilità dei LLM in condizioni di ambiguità
- Valutato su tre benchmark attraverso 17 LLM
- Aumentare le risposte plausibili degrada l'identificazione della risposta corretta
- L'inquadramento dell'astensione influisce sulla cautela del modello
- Pubblicato su arXiv con ID 2605.01011
Entità
Istituzioni
- arXiv