Il Modellamento Spettrale Migliora l'Ottimizzatore Muon per l'Addestramento di LLM

publication · 2026-05-25

Un nuovo articolo su arXiv introduce DynMuon, una variante dell'ottimizzatore Muon che applica il modellamento spettrale alla matrice di aggiornamento. Il metodo Muon standard sostituisce la matrice di aggiornamento del gradiente M = UΣV^T con il suo fattore polare UV^T. DynMuon generalizza questo utilizzando UΣ^p V^T, dove p è un parametro regolato in base alla curvatura locale, al rumore del gradiente stocastico e alla fase di addestramento. La teoria e gli esperimenti mostrano che valori positivi di p accelerano l'addestramento iniziale enfatizzando le direzioni ad alta curvatura, mentre valori leggermente negativi di p favoriscono le fasi successive spostando l'attenzione sulle direzioni a bassa curvatura. Questo comportamento precedentemente trascurato offre un modo dinamico per migliorare la convergenza nell'addestramento di modelli linguistici di grandi dimensioni.

Fatti principali

Muon è il metodo dominante per l'addestramento di modelli linguistici di grandi dimensioni.
Il Muon standard sostituisce la matrice di aggiornamento con il suo fattore polare UV^T.
DynMuon utilizza UΣ^p V^T per il modellamento spettrale.
Il parametro p dipende dalla curvatura locale, dal rumore e dalla fase di addestramento.
p positivo aiuta l'addestramento iniziale enfatizzando le direzioni ad alta curvatura.
p leggermente negativo aiuta l'addestramento successivo concentrandosi sulle direzioni a bassa curvatura.
L'articolo è arXiv:2605.17109.
Il lavoro rivela un comportamento precedentemente trascurato negli aggiornamenti simili a Muon.

Il Modellamento Spettrale Migliora l'Ottimizzatore Muon per l'Addestramento di LLM

Fatti principali

Entità

Istituzioni

Fonti