ARTFEED — Contemporary Art Intelligence

Il fenomeno DWD consente un efficiente riutilizzo dei gradienti in RLVR per LLM

ai-technology · 2026-05-20

I ricercatori hanno identificato il fenomeno della Divergenza Sproporzionata dei Pesi (DWD), che consente un apprendimento per rinforzo con ricompense verificabili (RLVR) efficiente in termini di campioni per i modelli linguistici di grandi dimensioni (LLM). RLVR è cruciale per il ragionamento avanzato ma soffre di costi elevati dei campioni a causa dei costosi batch di rollout. Il riutilizzo dei batch per più aggiornamenti del gradiente, comune nell'RL classico, causa uno spostamento della politica e un degrado delle prestazioni in RLVR. Il fenomeno DWD mostra che il degrado è correlato a un improvviso aumento della variazione dei pesi di lm_head mentre i livelli intermedi rimangono stabili. Ciò consente di rilevare precocemente quando smettere di riutilizzare i campioni. Il risultato è verificato empiricamente su diversi LLM e compiti, con una dimostrazione teorica che i gradienti dannosi si concentrano su lm_head. Il lavoro affronta un collo di bottiglia critico in RLVR, rendendolo più pratico per l'addestramento di modelli di ragionamento avanzati.

Fatti principali

  • RLVR è un paradigma dominante per il ragionamento avanzato negli LLM.
  • I campioni di rollout sono costosi, rendendo critica l'efficienza dei campioni.
  • Il riutilizzo dei batch di rollout per più aggiornamenti del gradiente amplifica lo spostamento della politica in RLVR.
  • DWD sta per Divergenza Sproporzionata dei Pesi.
  • Il degrado delle prestazioni si sincronizza con un improvviso aumento della variazione dei pesi di lm_head.
  • I livelli intermedi rimangono stabili durante DWD.
  • DWD emerge in modo coerente in diversi LLM e compiti.
  • La dimostrazione teorica mostra che i gradienti dannosi si concentrano su lm_head.

Entità

Fonti