ARTFEED — Contemporary Art Intelligence

SCRL: Il Curriculum RL Consente l'Assegnazione del Credito per il Ragionamento LLM

other · 2026-05-23

I ricercatori introducono SCRL (Subproblem Curriculum Reinforcement Learning), un framework che migliora il ragionamento LLM suddividendo problemi difficili in sottoproblemi verificabili. A differenza del RLVR standard basato sui risultati, che fatica con rollout corretti rari e non può sfruttare progressi parziali, SCRL deriva sottoproblemi da catene di ragionamento di riferimento e utilizza la normalizzazione a livello di sottoproblema per assegnare un credito più granulare senza rubriche esterne. Questo approccio trasforma i progressi parziali in segnali di apprendimento, sollevando i problemi difficili dalle zone morte del gradiente.

Fatti principali

  • 1. SCRL sta per Subproblem Curriculum Reinforcement Learning.
  • 2. Affronta l'inefficienza del RLVR basato sui risultati su problemi difficili.
  • 3. Deriva sottoproblemi verificabili da catene di ragionamento di riferimento.
  • 4. Fissa l'ultimo sottoproblema come problema originale.
  • 5. Utilizza la normalizzazione a livello di sottoproblema per un'assegnazione del credito più granulare.
  • 6. Non sono necessarie rubriche esterne o modelli di ricompensa.
  • 7. L'analisi mostra che i curricula di sottoproblemi sollevano i problemi difficili dalle zone morte del gradiente.
  • 8. Pubblicato su arXiv con ID 2605.22074.

Entità

Istituzioni

  • arXiv

Fonti