ARTFEED — Contemporary Art Intelligence

Punteggio Proprio di Traiettoria per la Quantificazione dell'Incertezza negli Agenti

other · 2026-05-26

È stato introdotto un nuovo criterio di punteggio, il Trajectory Proper Score (TPS), per valutare la quantificazione dell'incertezza negli agenti basati su modelli linguistici. I metodi esistenti come AUROC, AUPRC, risk-coverage, Trajectory ECE e punteggi di traiettoria scalarizzati confondono l'utilità di ranking con la veridicità probabilistica. TPS è una famiglia di regole di punteggio strettamente proprie a livello di traiettoria, indipendente dal predittore, che elicita l'intera traccia di probabilità di successo condizionata al prefisso. È dimostrato che elicita strettamente il processo di probabilità di successo sotto osservazione completa, e la costruzione si estende a traiettorie censurate amministrativamente. Il lavoro si basa sul prequential proper scoring ed è dettagliato in arXiv:2605.24756.

Fatti principali

  • TPS è una famiglia di regole di punteggio strettamente proprie a livello di traiettoria.
  • I metodi esistenti come AUROC, AUPRC, risk-coverage, Trajectory ECE e punteggi scalarizzati vengono criticati.
  • TPS elicita la traccia di probabilità di successo q_t = P^π(Y=1 | H_t).
  • TPS è indipendente dal predittore.
  • TPS è dimostrato strettamente proprio sotto osservazione completa.
  • Viene fornita un'estensione a traiettorie censurate amministrativamente.
  • Il lavoro si basa sul prequential proper scoring.
  • L'articolo è disponibile su arXiv con ID 2605.24756.

Entità

Istituzioni

  • arXiv

Fonti