BetaPRM: Modello di Ricompensa Processuale Distribuzionale per un Feedback Affidabile a Livello di Passo

other · 2026-05-18

Uno studio recente pubblicato su arXiv introduce BetaPRM, un modello di ricompensa processuale distribuzionale progettato per prevedere sia la probabilità di successo a ogni passo che l'affidabilità di tale previsione. I PRM esistenti producono un singolo punteggio di ricompensa per ogni passo, che i metodi successivi spesso assumono essere accurato nonostante potenziali difetti. Al contrario, BetaPRM impiega una verosimiglianza Beta-Binomiale per derivare una credenza Beta da continuazioni Monte Carlo, offrendo un indicatore di affidabilità che aiuta a determinare quando una ricompensa di passo è attendibile. Questo progresso consente applicazioni come l'Allocazione Adattiva del Calcolo per distinguere tra ricompense affidabili e incerte.

Fatti principali

BetaPRM è un modello di ricompensa processuale distribuzionale.
Prevede la probabilità di successo a livello di passo e l'affidabilità della previsione.
I PRM attuali producono solo un singolo punteggio di ricompensa per passo.
BetaPRM usa una verosimiglianza Beta-Binomiale da continuazioni Monte Carlo.
Il segnale di affidabilità indica quando una ricompensa di passo dovrebbe essere considerata attendibile.
Un'applicazione è l'Allocazione Adattiva del Calcolo.
L'articolo è su arXiv con ID 2605.15529.
Il tipo di annuncio è cross.

BetaPRM: Modello di Ricompensa Processuale Distribuzionale per un Feedback Affidabile a Livello di Passo

Fatti principali

Entità

Istituzioni

Fonti