NudgeRL: Esplorazione Strutturata per l'Apprendimento per Rinforzo con Ricompense Verificabili

other · 2026-05-18

Un nuovo framework chiamato NudgeRL propone un'esplorazione strutturata e guidata dalla diversità per l'apprendimento per rinforzo con ricompense verificabili (RLVR) nei modelli linguistici di grandi dimensioni. L'approccio introduce il Strategy Nudging, che condiziona i rollout su contesti di strategia leggeri per generare traiettorie di ragionamento diversificate senza costosa supervisione oracle. Un obiettivo unificato scompone il segnale di ricompensa per migliorare l'efficienza dell'apprendimento. Il lavoro affronta il limite fondamentale di RLVR in cui il miglioramento della politica è vincolato dalle traiettorie campionate in precedenza, offrendo un'alternativa al costoso scaling brute-force computazionale. L'articolo è disponibile su arXiv con identificativo 2605.15726.

Fatti principali

NudgeRL è un framework per l'esplorazione strutturata in RLVR
Il Strategy Nudging condiziona i rollout su contesti di strategia
Un obiettivo unificato scompone il segnale di ricompensa
RLVR migliora le capacità di ragionamento dei modelli linguistici di grandi dimensioni
L'esplorazione è limitata dalle traiettorie campionate in precedenza
Lo scaling brute-force è computazionalmente costoso
L'articolo è su arXiv con ID 2605.15726

NudgeRL: Esplorazione Strutturata per l'Apprendimento per Rinforzo con Ricompense Verificabili

Fatti principali

Entità

Istituzioni

Fonti