ARTFEED — Contemporary Art Intelligence

Nuovo Metodo Misura la Confidenza Black-Box tramite Traiettorie di Ragionamento

other · 2026-05-09

I ricercatori hanno introdotto una tecnica innovativa per valutare la confidenza nel ragionamento a catena di pensiero utilizzando API testuali, nota come punteggio di confidenza della traiettoria. Questo sistema visualizza i percorsi di ragionamento e valuta la coerenza con benchmark esterni attraverso un approccio softmax unico, evitando la necessità di stati nascosti o metodi di calibrazione. Esperimenti su sei diversi scenari, come MedQA-USMLE e GPQA Diamond, utilizzando Gemini 3.1 Pro e Claude Sonnet 4.6, hanno indicato che l'integrazione di questo punteggio con copertura e confidenza verbalizzata a K=4 ha ottenuto risultati superiori rispetto all'autoconsistenza a K=8, raggiungendo un AUC mediano di 0,78 contro 0,71, senza discrepanze legate al fornitore.

Fatti principali

  • 1. Il metodo è un punteggio di confidenza della traiettoria black-box.
  • 2. Incorpora il CoT come traiettoria a finestra scorrevole.
  • 3. Misura la convergenza verso ancore di risposta esterne con softmax a un parametro.
  • 4. Non necessita di logit, stati nascosti o calibratori supervisionati.
  • 5. Valutato su MedQA-USMLE, GPQA Diamond, MMLU-Pro.
  • 6. Modelli: Gemini 3.1 Pro e Claude Sonnet 4.6.
  • 7. Fonde il punteggio di traiettoria con copertura e canali di confidenza verbalizzata a K=4.
  • 8. Supera l'autoconsistenza a K=8 in tutti e sei gli scenari.
  • 9. AUC mediano 0,78 vs 0,71, deltaAUC=+0,075.
  • 10. Il controllo a scelta fissa (+0,060) e la replica con cross-embedder E5 confermano la robustezza.

Entità

Istituzioni

  • arXiv

Fonti