Il fenomeno DWD consente un efficiente riutilizzo dei gradienti in RLVR per LLM
I ricercatori hanno identificato il fenomeno della Divergenza Sproporzionata dei Pesi (DWD), che consente un apprendimento per rinforzo con ricompense verificabili (RLVR) efficiente in termini di campioni per i modelli linguistici di grandi dimensioni (LLM). RLVR è cruciale per il ragionamento avanzato ma soffre di costi elevati dei campioni a causa dei costosi batch di rollout. Il riutilizzo dei batch per più aggiornamenti del gradiente, comune nell'RL classico, causa uno spostamento della politica e un degrado delle prestazioni in RLVR. Il fenomeno DWD mostra che il degrado è correlato a un improvviso aumento della variazione dei pesi di lm_head mentre i livelli intermedi rimangono stabili. Ciò consente di rilevare precocemente quando smettere di riutilizzare i campioni. Il risultato è verificato empiricamente su diversi LLM e compiti, con una dimostrazione teorica che i gradienti dannosi si concentrano su lm_head. Il lavoro affronta un collo di bottiglia critico in RLVR, rendendolo più pratico per l'addestramento di modelli di ragionamento avanzati.
Fatti principali
- RLVR è un paradigma dominante per il ragionamento avanzato negli LLM.
- I campioni di rollout sono costosi, rendendo critica l'efficienza dei campioni.
- Il riutilizzo dei batch di rollout per più aggiornamenti del gradiente amplifica lo spostamento della politica in RLVR.
- DWD sta per Divergenza Sproporzionata dei Pesi.
- Il degrado delle prestazioni si sincronizza con un improvviso aumento della variazione dei pesi di lm_head.
- I livelli intermedi rimangono stabili durante DWD.
- DWD emerge in modo coerente in diversi LLM e compiti.
- La dimostrazione teorica mostra che i gradienti dannosi si concentrano su lm_head.
Entità
—