Il fenomeno DWD consente un efficiente riutilizzo dei gradienti in RLVR per LLM

ai-technology · 2026-05-20

I ricercatori hanno identificato il fenomeno della Divergenza Sproporzionata dei Pesi (DWD), che consente un apprendimento per rinforzo con ricompense verificabili (RLVR) efficiente in termini di campioni per i modelli linguistici di grandi dimensioni (LLM). RLVR è cruciale per il ragionamento avanzato ma soffre di costi elevati dei campioni a causa dei costosi batch di rollout. Il riutilizzo dei batch per più aggiornamenti del gradiente, comune nell'RL classico, causa uno spostamento della politica e un degrado delle prestazioni in RLVR. Il fenomeno DWD mostra che il degrado è correlato a un improvviso aumento della variazione dei pesi di lm_head mentre i livelli intermedi rimangono stabili. Ciò consente di rilevare precocemente quando smettere di riutilizzare i campioni. Il risultato è verificato empiricamente su diversi LLM e compiti, con una dimostrazione teorica che i gradienti dannosi si concentrano su lm_head. Il lavoro affronta un collo di bottiglia critico in RLVR, rendendolo più pratico per l'addestramento di modelli di ragionamento avanzati.

Fatti principali

RLVR è un paradigma dominante per il ragionamento avanzato negli LLM.
I campioni di rollout sono costosi, rendendo critica l'efficienza dei campioni.
Il riutilizzo dei batch di rollout per più aggiornamenti del gradiente amplifica lo spostamento della politica in RLVR.
DWD sta per Divergenza Sproporzionata dei Pesi.
Il degrado delle prestazioni si sincronizza con un improvviso aumento della variazione dei pesi di lm_head.
I livelli intermedi rimangono stabili durante DWD.
DWD emerge in modo coerente in diversi LLM e compiti.
La dimostrazione teorica mostra che i gradienti dannosi si concentrano su lm_head.

Entità

—

Fonti

arXiv cs.AI — 2026-05-20