ARTFEED — Contemporary Art Intelligence

La calibrazione della confidenza nei LLM dipende dalle scelte di misurazione

ai-technology · 2026-05-28

Uno studio recente pubblicato su arXiv indica che la calibrazione della confidenza nei modelli linguistici di grandi dimensioni (LLM) è significativamente influenzata dai metodi utilizzati per valutare i punteggi di probabilità dei token e la confidenza espressa. La ricerca mantiene costante l'elicitazione della confidenza verbalizzata utilizzando un unico template di prompt, una specifica scala di probabilità e un formato di output uniforme, mentre varia i parametri di misurazione: la stringa di risposta a cui viene assegnato il punteggio di probabilità del token, il metodo di lettura di tale punteggio dai token di risposta e il contesto di condizionamento per la misurazione. Testato su quattro benchmark di QA su tre famiglie di modelli aperti 7–8B base/Instruct, con varianti Qwen2.5 più grandi come controlli di robustezza, i risultati rivelano che il contesto di condizionamento può influenzare sia il segno che l'entità del divario dell'Expected Calibration Error (ECE). Questi risultati evidenziano l'importanza di affrontare la sensibilità del protocollo nelle valutazioni di confidenza dei LLM.

Fatti principali

  • Lo studio esamina la calibrazione della confidenza nei LLM confrontando i punteggi di probabilità dei token e la confidenza verbalizzata.
  • L'elicitazione della confidenza verbalizzata è mantenuta fissa: un template di prompt, una scala di probabilità e un formato di output.
  • Assi di misurazione variati: quale stringa di risposta riceve il punteggio di probabilità del token, come viene letto il punteggio e il contesto di condizionamento.
  • Valutato su quattro benchmark di QA su tre famiglie di modelli aperti 7–8B base/Instruct.
  • Varianti Qwen2.5 più grandi utilizzate come controlli di robustezza della stessa famiglia.
  • Il contesto di condizionamento cambia segno o entità del divario dell'ECE.
  • Articolo disponibile su arXiv con ID 2605.27752.
  • Evidenzia la necessità di scelte di misurazione esplicite nella ricerca sulla calibrazione della confidenza.

Entità

Istituzioni

  • arXiv

Fonti