Spiegazione del meccanismo di appiattimento spettrale dell'ottimizzatore Muon
Un recente studio pubblicato su arXiv (2605.13079) indica che l'efficacia dell'ottimizzatore Muon è attribuita alla sua capacità di appiattire gli spettri. Utilizzando le iterazioni di Newton-Schulz, Muon ortogonalizza il suo buffer di momento, sostituendo i valori singolari con uno. Questo adattamento consente a Muon di gestire tassi di apprendimento più elevati e ottenere una convergenza più rapida rispetto agli ottimizzatori tradizionali. I ricercatori dimostrano che la dimensione massima del passo stabile per Muon è proporzionale al valore singolare medio del gradiente, in contrasto con il valore più grande, che limita SGD. Inoltre, ridefiniscono Muon come un metodo di gradiente precondizionato, illustrando una convergenza migliorata quando applicato a un modello di curvatura fattorizzato di Kronecker. Gli esperimenti confermano che Muon mantiene la stabilità a tassi di apprendimento che causano il fallimento di SGD nelle iterazioni iniziali, raggiungendo i benchmark di accuratezza diversi epoche prima.
Fatti principali
- Muon ortogonalizza il buffer di momento prima di ogni aggiornamento utilizzando le iterazioni di Newton-Schulz.
- L'appiattimento spettrale è il meccanismo alla base delle prestazioni di Muon.
- La dimensione massima del passo stabile di Muon scala con il valore singolare medio del gradiente.
- La discesa del gradiente standard è limitata dal valore singolare più grande.
- Muon viene reinterpretato come un metodo di gradiente precondizionato.
- Il miglioramento è controllato dallo spettro della covarianza del gradiente.
- Muon rimane stabile a tassi di apprendimento che causano la divergenza precoce di SGD.
- Muon raggiunge i traguardi di accuratezza diverse epoche prima di SGD.
Entità
Istituzioni
- arXiv