Il Trasporto Ottimale Condizionale Calibra i Modelli di Ricompensa di Processo

ai-technology · 2026-05-11

Un nuovo metodo che utilizza il trasporto ottimale condizionale (CondOT) migliora la calibrazione dei Modelli di Ricompensa di Processo (PRM) per lo scaling al momento dell'inferenza. L'approccio modifica l'apprendimento della mappa CondOT per stimare una funzione quantile condizionale monotona sulle probabilità di successo, condizionata agli stati nascosti del PRM, producendo stime quantili strutturalmente valide e intervalli di confidenza a livelli arbitrari. Integrato nel framework di scaling instance-adaptive (IAS), viene valutato sui benchmark MATH-500 e AIME, mostrando sostanziali miglioramenti nella calibrazione rispetto ai PRM non calibrati e alla regressione quantile quando i PRM hanno segnali di ranking affidabili.

Fatti principali

arXiv:2605.06785v1 è un abstract di tipo cross.
I PRM sono spesso mal calibrati e sovrastimano le probabilità di successo.
Primo utilizzo del trasporto ottimale condizionale per calibrare i PRM.
Il metodo modifica l'apprendimento della mappa CondOT da bunne2022supervised.
Stima una funzione quantile condizionale monotona sulle probabilità di successo.
Condizionata agli stati nascosti del PRM.
Produce stime quantili strutturalmente valide e intervalli di confidenza.
Integrato nel framework IAS da park2025know.
Valutato sui benchmark MATH-500 e AIME.
Migliora sostanzialmente la calibrazione rispetto ai PRM non calibrati e alla regressione quantile.

Il Trasporto Ottimale Condizionale Calibra i Modelli di Ricompensa di Processo

Fatti principali

Entità

Istituzioni

Fonti