ARTFEED — Contemporary Art Intelligence

La calibrazione degli LLM nasconde modelli di eccessiva confidenza localizzati

ai-technology · 2026-05-14

Uno studio recente pubblicato su arXiv indica che le metriche di calibrazione convenzionali per i modelli linguistici di grandi dimensioni (LLM) possono oscurare critici problemi di miscalibrazione localizzata. Gli autori introducono un quadro diagnostico che sviluppa una rappresentazione dello spazio di input consapevole della calibrazione e valuta la miscalibrazione locale firmata utilizzando tecniche di kernel smoothing. Valutando quattro benchmark reali e dodici diversi LLM, scoprono una diffusa variabilità di calibrazione dipendente dall'input, rivelando che i modelli tendono ad essere eccessivamente fiduciosi in alcuni casi mentre mancano di fiducia in altri. Questa ricerca sottolinea la necessità di valutazioni di affidabilità più dettagliate che vadano oltre le semplici metriche di confidenza globale.

Fatti principali

  • Studio pubblicato su arXiv con ID 2605.13484v1
  • Propone un quadro per scoprire regimi di miscalibrazione nascosti senza fette di dati predefinite
  • Definisce il campo di miscalibrazione e lo stima tramite kernel smoothing in una geometria appresa
  • Testato su quattro benchmark reali di LLM e dodici LLM
  • La eterogeneità della calibrazione dipendente dall'input è prevalente
  • I modelli possono essere sistematicamente troppo fiduciosi su alcuni input e troppo poco fiduciosi su altri
  • Le diagnostiche globali di affidabilità possono oscurare fallimenti di calibrazione localizzati
  • La calibrazione è tipicamente valutata confrontando la confidenza del modello con la correttezza empirica

Entità

Istituzioni

  • arXiv

Fonti