ARTFEED — Contemporary Art Intelligence

Il framework CLEAR rivela problemi di affidabilità dei LLM in contesti medici

other · 2026-05-06

Un nuovo framework chiamato CLEAR (CLinical Evaluation of Ambiguity and Reliability) mostra come rumore e ambiguità degradino le prestazioni dei modelli linguistici di grandi dimensioni (LLM) nei benchmark medici. Sviluppato da ricercatori e pubblicato su arXiv, CLEAR perturba sistematicamente il numero di opzioni di risposta, la presenza della verità di base e l'inquadramento semantico su tre benchmark e 17 LLM. I risultati mostrano che aumentare le risposte plausibili riduce l'accuratezza e la capacità di astensione, specialmente quando l'inquadramento dell'astensione passa da un rifiuto assertivo a una formulazione incerta. Lo studio evidenzia i limiti degli attuali metodi di valutazione che non riflettono l'ambiguità medica del mondo reale.

Fatti principali

  • Il framework CLEAR è stato introdotto per valutare l'affidabilità dei LLM in condizioni di ambiguità
  • Valutato su tre benchmark attraverso 17 LLM
  • Aumentare le risposte plausibili degrada l'identificazione della risposta corretta
  • L'inquadramento dell'astensione influisce sulla cautela del modello
  • Pubblicato su arXiv con ID 2605.01011

Entità

Istituzioni

  • arXiv

Fonti