SCRL: Il Curriculum RL Consente l'Assegnazione del Credito per il Ragionamento LLM
I ricercatori introducono SCRL (Subproblem Curriculum Reinforcement Learning), un framework che migliora il ragionamento LLM suddividendo problemi difficili in sottoproblemi verificabili. A differenza del RLVR standard basato sui risultati, che fatica con rollout corretti rari e non può sfruttare progressi parziali, SCRL deriva sottoproblemi da catene di ragionamento di riferimento e utilizza la normalizzazione a livello di sottoproblema per assegnare un credito più granulare senza rubriche esterne. Questo approccio trasforma i progressi parziali in segnali di apprendimento, sollevando i problemi difficili dalle zone morte del gradiente.
Fatti principali
- 1. SCRL sta per Subproblem Curriculum Reinforcement Learning.
- 2. Affronta l'inefficienza del RLVR basato sui risultati su problemi difficili.
- 3. Deriva sottoproblemi verificabili da catene di ragionamento di riferimento.
- 4. Fissa l'ultimo sottoproblema come problema originale.
- 5. Utilizza la normalizzazione a livello di sottoproblema per un'assegnazione del credito più granulare.
- 6. Non sono necessarie rubriche esterne o modelli di ricompensa.
- 7. L'analisi mostra che i curricula di sottoproblemi sollevano i problemi difficili dalle zone morte del gradiente.
- 8. Pubblicato su arXiv con ID 2605.22074.
Entità
Istituzioni
- arXiv