DynaMO: Un Nuovo Framework per l'Apprendimento per Rinforzo con Ricompense Verificabili

other · 2026-04-25

Un articolo di ricerca su arXiv (2602.19208) propone DynaMO, un framework di ottimizzazione a doppio approccio per l'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) nel ragionamento dei Modelli Linguistici di Grandi Dimensioni (LLM). Il framework affronta due sfide chiave: l'allocazione uniforme dei rollout che ignora l'eterogeneità della varianza del gradiente tra i problemi, e l'attenuazione del gradiente per azioni corrette ad alta confidenza a causa della struttura della politica softmax. A livello di sequenza, DynaMO deriva un'allocazione che minimizza la varianza dai primi principi, utilizzando la varianza di Bernoulli come proxy per l'informatività del gradiente. A livello di token, sviluppa una modulazione del vantaggio sensibile al gradiente basata sull'analisi teorica dei limiti dell'ampiezza del gradiente. L'articolo dimostra che l'allocazione uniforme è subottimale.

Fatti principali

L'articolo è su arXiv con ID 2602.19208
Propone il framework DynaMO per RLVR
Affronta l'allocazione uniforme dei rollout
Affronta l'attenuazione del gradiente nella politica softmax
Allocazione a livello di sequenza che minimizza la varianza
Utilizza la varianza di Bernoulli come proxy
Modulazione del vantaggio sensibile al gradiente a livello di token
Dimostra che l'allocazione uniforme è subottimale

DynaMO: Un Nuovo Framework per l'Apprendimento per Rinforzo con Ricompense Verificabili

Fatti principali

Entità

Istituzioni

Fonti