Il framework CLEAR rivela problemi di affidabilità dei LLM in contesti medici

other · 2026-05-06

Un nuovo framework chiamato CLEAR (CLinical Evaluation of Ambiguity and Reliability) mostra come rumore e ambiguità degradino le prestazioni dei modelli linguistici di grandi dimensioni (LLM) nei benchmark medici. Sviluppato da ricercatori e pubblicato su arXiv, CLEAR perturba sistematicamente il numero di opzioni di risposta, la presenza della verità di base e l'inquadramento semantico su tre benchmark e 17 LLM. I risultati mostrano che aumentare le risposte plausibili riduce l'accuratezza e la capacità di astensione, specialmente quando l'inquadramento dell'astensione passa da un rifiuto assertivo a una formulazione incerta. Lo studio evidenzia i limiti degli attuali metodi di valutazione che non riflettono l'ambiguità medica del mondo reale.

Fatti principali

Il framework CLEAR è stato introdotto per valutare l'affidabilità dei LLM in condizioni di ambiguità
Valutato su tre benchmark attraverso 17 LLM
Aumentare le risposte plausibili degrada l'identificazione della risposta corretta
L'inquadramento dell'astensione influisce sulla cautela del modello
Pubblicato su arXiv con ID 2605.01011

Il framework CLEAR rivela problemi di affidabilità dei LLM in contesti medici

Fatti principali

Entità

Istituzioni

Fonti