Punteggio Proprio di Traiettoria per la Quantificazione dell'Incertezza negli Agenti
È stato introdotto un nuovo criterio di punteggio, il Trajectory Proper Score (TPS), per valutare la quantificazione dell'incertezza negli agenti basati su modelli linguistici. I metodi esistenti come AUROC, AUPRC, risk-coverage, Trajectory ECE e punteggi di traiettoria scalarizzati confondono l'utilità di ranking con la veridicità probabilistica. TPS è una famiglia di regole di punteggio strettamente proprie a livello di traiettoria, indipendente dal predittore, che elicita l'intera traccia di probabilità di successo condizionata al prefisso. È dimostrato che elicita strettamente il processo di probabilità di successo sotto osservazione completa, e la costruzione si estende a traiettorie censurate amministrativamente. Il lavoro si basa sul prequential proper scoring ed è dettagliato in arXiv:2605.24756.
Fatti principali
- TPS è una famiglia di regole di punteggio strettamente proprie a livello di traiettoria.
- I metodi esistenti come AUROC, AUPRC, risk-coverage, Trajectory ECE e punteggi scalarizzati vengono criticati.
- TPS elicita la traccia di probabilità di successo q_t = P^π(Y=1 | H_t).
- TPS è indipendente dal predittore.
- TPS è dimostrato strettamente proprio sotto osservazione completa.
- Viene fornita un'estensione a traiettorie censurate amministrativamente.
- Il lavoro si basa sul prequential proper scoring.
- L'articolo è disponibile su arXiv con ID 2605.24756.
Entità
Istituzioni
- arXiv