REFT: La diversificazione del primo token potenzia la diversità dei rollout in RLVR

ai-technology · 2026-05-28

I ricercatori identificano il primo token dopo il marker di ragionamento come una posizione critica ma trascurata per ampliare la diversità dei rollout nell'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR). La distribuzione del primo token della policy mostra un fenomeno di picco netto ma disaccoppiato dalla correttezza, consentendo una copertura più ampia senza alterare i segnali di correttezza. Introducono REFT (Rollout Exploration with First-Token Diversification), un metodo leggero che campiona uniformemente i primi token tra i primi N candidati della policy. Questo approccio affronta un collo di bottiglia centrale in RLVR, dove la diversità dei rollout è fondamentale per addestrare modelli di ragionamento senza traiettorie etichettate. Il paper è disponibile su arXiv con ID 2605.28295.

Fatti principali

REFT sta per Rollout Exploration with First-Token Diversification
Il metodo si concentra sul primo token dopo il marker di ragionamento
La distribuzione del primo token è fortemente concentrata ma disaccoppiata dalla correttezza
REFT campiona uniformemente i primi token tra i primi N candidati
RLVR addestra modelli di ragionamento senza traiettorie etichettate
La diversità dei rollout è un collo di bottiglia centrale in RLVR
I metodi esistenti utilizzano regolazioni di temperatura, prefisso o selezione dei rollout
Paper disponibile su arXiv: 2605.28295

REFT: La diversificazione del primo token potenzia la diversità dei rollout in RLVR

Fatti principali

Entità

Istituzioni

Fonti