Nuovo Metodo Misura la Confidenza Black-Box tramite Traiettorie di Ragionamento
I ricercatori hanno introdotto una tecnica innovativa per valutare la confidenza nel ragionamento a catena di pensiero utilizzando API testuali, nota come punteggio di confidenza della traiettoria. Questo sistema visualizza i percorsi di ragionamento e valuta la coerenza con benchmark esterni attraverso un approccio softmax unico, evitando la necessità di stati nascosti o metodi di calibrazione. Esperimenti su sei diversi scenari, come MedQA-USMLE e GPQA Diamond, utilizzando Gemini 3.1 Pro e Claude Sonnet 4.6, hanno indicato che l'integrazione di questo punteggio con copertura e confidenza verbalizzata a K=4 ha ottenuto risultati superiori rispetto all'autoconsistenza a K=8, raggiungendo un AUC mediano di 0,78 contro 0,71, senza discrepanze legate al fornitore.
Fatti principali
- 1. Il metodo è un punteggio di confidenza della traiettoria black-box.
- 2. Incorpora il CoT come traiettoria a finestra scorrevole.
- 3. Misura la convergenza verso ancore di risposta esterne con softmax a un parametro.
- 4. Non necessita di logit, stati nascosti o calibratori supervisionati.
- 5. Valutato su MedQA-USMLE, GPQA Diamond, MMLU-Pro.
- 6. Modelli: Gemini 3.1 Pro e Claude Sonnet 4.6.
- 7. Fonde il punteggio di traiettoria con copertura e canali di confidenza verbalizzata a K=4.
- 8. Supera l'autoconsistenza a K=8 in tutti e sei gli scenari.
- 9. AUC mediano 0,78 vs 0,71, deltaAUC=+0,075.
- 10. Il controllo a scelta fissa (+0,060) e la replica con cross-embedder E5 confermano la robustezza.
Entità
Istituzioni
- arXiv