ARTFEED — Contemporary Art Intelligence

DynaMO: Un Nuovo Framework per l'Apprendimento per Rinforzo con Ricompense Verificabili

other · 2026-04-25

Un articolo di ricerca su arXiv (2602.19208) propone DynaMO, un framework di ottimizzazione a doppio approccio per l'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) nel ragionamento dei Modelli Linguistici di Grandi Dimensioni (LLM). Il framework affronta due sfide chiave: l'allocazione uniforme dei rollout che ignora l'eterogeneità della varianza del gradiente tra i problemi, e l'attenuazione del gradiente per azioni corrette ad alta confidenza a causa della struttura della politica softmax. A livello di sequenza, DynaMO deriva un'allocazione che minimizza la varianza dai primi principi, utilizzando la varianza di Bernoulli come proxy per l'informatività del gradiente. A livello di token, sviluppa una modulazione del vantaggio sensibile al gradiente basata sull'analisi teorica dei limiti dell'ampiezza del gradiente. L'articolo dimostra che l'allocazione uniforme è subottimale.

Fatti principali

  • L'articolo è su arXiv con ID 2602.19208
  • Propone il framework DynaMO per RLVR
  • Affronta l'allocazione uniforme dei rollout
  • Affronta l'attenuazione del gradiente nella politica softmax
  • Allocazione a livello di sequenza che minimizza la varianza
  • Utilizza la varianza di Bernoulli come proxy
  • Modulazione del vantaggio sensibile al gradiente a livello di token
  • Dimostra che l'allocazione uniforme è subottimale

Entità

Istituzioni

  • arXiv

Fonti