Punteggio Proprio di Traiettoria per la Quantificazione dell'Incertezza negli Agenti

other · 2026-05-26

È stato introdotto un nuovo criterio di punteggio, il Trajectory Proper Score (TPS), per valutare la quantificazione dell'incertezza negli agenti basati su modelli linguistici. I metodi esistenti come AUROC, AUPRC, risk-coverage, Trajectory ECE e punteggi di traiettoria scalarizzati confondono l'utilità di ranking con la veridicità probabilistica. TPS è una famiglia di regole di punteggio strettamente proprie a livello di traiettoria, indipendente dal predittore, che elicita l'intera traccia di probabilità di successo condizionata al prefisso. È dimostrato che elicita strettamente il processo di probabilità di successo sotto osservazione completa, e la costruzione si estende a traiettorie censurate amministrativamente. Il lavoro si basa sul prequential proper scoring ed è dettagliato in arXiv:2605.24756.

Fatti principali

TPS è una famiglia di regole di punteggio strettamente proprie a livello di traiettoria.
I metodi esistenti come AUROC, AUPRC, risk-coverage, Trajectory ECE e punteggi scalarizzati vengono criticati.
TPS elicita la traccia di probabilità di successo q_t = P^π(Y=1 | H_t).
TPS è indipendente dal predittore.
TPS è dimostrato strettamente proprio sotto osservazione completa.
Viene fornita un'estensione a traiettorie censurate amministrativamente.
Il lavoro si basa sul prequential proper scoring.
L'articolo è disponibile su arXiv con ID 2605.24756.

Punteggio Proprio di Traiettoria per la Quantificazione dell'Incertezza negli Agenti

Fatti principali

Entità

Istituzioni

Fonti