DynaMO: Un Nuovo Framework per l'Apprendimento per Rinforzo con Ricompense Verificabili
Un articolo di ricerca su arXiv (2602.19208) propone DynaMO, un framework di ottimizzazione a doppio approccio per l'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) nel ragionamento dei Modelli Linguistici di Grandi Dimensioni (LLM). Il framework affronta due sfide chiave: l'allocazione uniforme dei rollout che ignora l'eterogeneità della varianza del gradiente tra i problemi, e l'attenuazione del gradiente per azioni corrette ad alta confidenza a causa della struttura della politica softmax. A livello di sequenza, DynaMO deriva un'allocazione che minimizza la varianza dai primi principi, utilizzando la varianza di Bernoulli come proxy per l'informatività del gradiente. A livello di token, sviluppa una modulazione del vantaggio sensibile al gradiente basata sull'analisi teorica dei limiti dell'ampiezza del gradiente. L'articolo dimostra che l'allocazione uniforme è subottimale.
Fatti principali
- L'articolo è su arXiv con ID 2602.19208
- Propone il framework DynaMO per RLVR
- Affronta l'allocazione uniforme dei rollout
- Affronta l'attenuazione del gradiente nella politica softmax
- Allocazione a livello di sequenza che minimizza la varianza
- Utilizza la varianza di Bernoulli come proxy
- Modulazione del vantaggio sensibile al gradiente a livello di token
- Dimostra che l'allocazione uniforme è subottimale
Entità
Istituzioni
- arXiv