SCRL: Il Curriculum RL Consente l'Assegnazione del Credito per il Ragionamento LLM

other · 2026-05-23

I ricercatori introducono SCRL (Subproblem Curriculum Reinforcement Learning), un framework che migliora il ragionamento LLM suddividendo problemi difficili in sottoproblemi verificabili. A differenza del RLVR standard basato sui risultati, che fatica con rollout corretti rari e non può sfruttare progressi parziali, SCRL deriva sottoproblemi da catene di ragionamento di riferimento e utilizza la normalizzazione a livello di sottoproblema per assegnare un credito più granulare senza rubriche esterne. Questo approccio trasforma i progressi parziali in segnali di apprendimento, sollevando i problemi difficili dalle zone morte del gradiente.

Fatti principali

1. SCRL sta per Subproblem Curriculum Reinforcement Learning.
2. Affronta l'inefficienza del RLVR basato sui risultati su problemi difficili.
3. Deriva sottoproblemi verificabili da catene di ragionamento di riferimento.
4. Fissa l'ultimo sottoproblema come problema originale.
5. Utilizza la normalizzazione a livello di sottoproblema per un'assegnazione del credito più granulare.
6. Non sono necessarie rubriche esterne o modelli di ricompensa.
7. L'analisi mostra che i curricula di sottoproblemi sollevano i problemi difficili dalle zone morte del gradiente.
8. Pubblicato su arXiv con ID 2605.22074.

SCRL: Il Curriculum RL Consente l'Assegnazione del Credito per il Ragionamento LLM

Fatti principali

Entità

Istituzioni

Fonti