NudgeRL: Esplorazione Strutturata per l'Apprendimento per Rinforzo con Ricompense Verificabili
Un nuovo framework chiamato NudgeRL propone un'esplorazione strutturata e guidata dalla diversità per l'apprendimento per rinforzo con ricompense verificabili (RLVR) nei modelli linguistici di grandi dimensioni. L'approccio introduce il Strategy Nudging, che condiziona i rollout su contesti di strategia leggeri per generare traiettorie di ragionamento diversificate senza costosa supervisione oracle. Un obiettivo unificato scompone il segnale di ricompensa per migliorare l'efficienza dell'apprendimento. Il lavoro affronta il limite fondamentale di RLVR in cui il miglioramento della politica è vincolato dalle traiettorie campionate in precedenza, offrendo un'alternativa al costoso scaling brute-force computazionale. L'articolo è disponibile su arXiv con identificativo 2605.15726.
Fatti principali
- NudgeRL è un framework per l'esplorazione strutturata in RLVR
- Il Strategy Nudging condiziona i rollout su contesti di strategia
- Un obiettivo unificato scompone il segnale di ricompensa
- RLVR migliora le capacità di ragionamento dei modelli linguistici di grandi dimensioni
- L'esplorazione è limitata dalle traiettorie campionate in precedenza
- Lo scaling brute-force è computazionalmente costoso
- L'articolo è su arXiv con ID 2605.15726
Entità
Istituzioni
- arXiv