OPPO: Assegnazione del Credito a Livello di Token Bayesiana per il Ragionamento dei LLM

other · 2026-05-23

Un nuovo metodo di apprendimento per rinforzo per modelli linguistici di grandi dimensioni, Oracle-Prompted Policy Optimization (OPPO), affronta il problema dell'assegnazione del credito nel ragionamento a livello di token. A differenza di GRPO, che assegna un unico vantaggio a livello di traiettoria a tutti i token, OPPO utilizza un aggiornamento bayesiano della convinzione del modello sul successo finale per fornire segnali per token. Questo approccio accumula segnali oracle lungo una traiettoria per stimare la probabilità di successo in ogni posizione, richiedendo solo un passaggio in avanti aggiuntivo. Il metodo migliora le tecniche precedenti di distillazione integrando la discriminazione locale con l'evidenza a livello di traiettoria.

Fatti principali

OPPO è proposto per l'assegnazione del credito a livello di token nel ragionamento dei LLM.
GRPO assegna un unico vantaggio a livello di traiettoria a ogni token.
I metodi precedenti senza critica utilizzano rapporti di verosimiglianza condizionati da oracle per segnali per token.
OPPO utilizza un aggiornamento bayesiano della convinzione del modello sul successo finale.
Il metodo accumula segnali oracle lungo una traiettoria.
Stima la probabilità di successo in ogni posizione in forma chiusa.
OPPO richiede un passaggio in avanti aggiuntivo.
L'approccio combina discriminazione locale con evidenza a livello di traiettoria.

OPPO: Assegnazione del Credito a Livello di Token Bayesiana per il Ragionamento dei LLM

Fatti principali

Entità

Istituzioni

Fonti