BetaPRM: Modello di Ricompensa Processuale Distribuzionale per un Feedback Affidabile a Livello di Passo
Uno studio recente pubblicato su arXiv introduce BetaPRM, un modello di ricompensa processuale distribuzionale progettato per prevedere sia la probabilità di successo a ogni passo che l'affidabilità di tale previsione. I PRM esistenti producono un singolo punteggio di ricompensa per ogni passo, che i metodi successivi spesso assumono essere accurato nonostante potenziali difetti. Al contrario, BetaPRM impiega una verosimiglianza Beta-Binomiale per derivare una credenza Beta da continuazioni Monte Carlo, offrendo un indicatore di affidabilità che aiuta a determinare quando una ricompensa di passo è attendibile. Questo progresso consente applicazioni come l'Allocazione Adattiva del Calcolo per distinguere tra ricompense affidabili e incerte.
Fatti principali
- BetaPRM è un modello di ricompensa processuale distribuzionale.
- Prevede la probabilità di successo a livello di passo e l'affidabilità della previsione.
- I PRM attuali producono solo un singolo punteggio di ricompensa per passo.
- BetaPRM usa una verosimiglianza Beta-Binomiale da continuazioni Monte Carlo.
- Il segnale di affidabilità indica quando una ricompensa di passo dovrebbe essere considerata attendibile.
- Un'applicazione è l'Allocazione Adattiva del Calcolo.
- L'articolo è su arXiv con ID 2605.15529.
- Il tipo di annuncio è cross.
Entità
Istituzioni
- arXiv