Il Modellamento Spettrale Migliora l'Ottimizzatore Muon per l'Addestramento di LLM
Un nuovo articolo su arXiv introduce DynMuon, una variante dell'ottimizzatore Muon che applica il modellamento spettrale alla matrice di aggiornamento. Il metodo Muon standard sostituisce la matrice di aggiornamento del gradiente M = UΣV^T con il suo fattore polare UV^T. DynMuon generalizza questo utilizzando UΣ^p V^T, dove p è un parametro regolato in base alla curvatura locale, al rumore del gradiente stocastico e alla fase di addestramento. La teoria e gli esperimenti mostrano che valori positivi di p accelerano l'addestramento iniziale enfatizzando le direzioni ad alta curvatura, mentre valori leggermente negativi di p favoriscono le fasi successive spostando l'attenzione sulle direzioni a bassa curvatura. Questo comportamento precedentemente trascurato offre un modo dinamico per migliorare la convergenza nell'addestramento di modelli linguistici di grandi dimensioni.
Fatti principali
- Muon è il metodo dominante per l'addestramento di modelli linguistici di grandi dimensioni.
- Il Muon standard sostituisce la matrice di aggiornamento con il suo fattore polare UV^T.
- DynMuon utilizza UΣ^p V^T per il modellamento spettrale.
- Il parametro p dipende dalla curvatura locale, dal rumore e dalla fase di addestramento.
- p positivo aiuta l'addestramento iniziale enfatizzando le direzioni ad alta curvatura.
- p leggermente negativo aiuta l'addestramento successivo concentrandosi sulle direzioni a bassa curvatura.
- L'articolo è arXiv:2605.17109.
- Il lavoro rivela un comportamento precedentemente trascurato negli aggiornamenti simili a Muon.
Entità
Istituzioni
- arXiv