Muon² Optimizer Migliora l'Addestramento dei Modelli Fondamentali con Precondizionamento Adattivo
Muon² estende l'ottimizzatore Muon applicando un precondizionamento adattivo del secondo momento in stile Adam prima dell'ortogonalizzazione, affrontando le limitazioni di efficienza pratica. Il metodo Muon originale sfrutta la struttura matriciale negli aggiornamenti delle reti neurali attraverso l'ortogonalizzazione iterativa, ma richiede multiple iterazioni Newton-Schulz per ogni passo di ottimizzazione, creando sovraccarichi computazionali e di comunicazione. Un'osservazione chiave rivela che le sfide dell'approssimazione polare derivano da una matrice di momento mal condizionata, il cui spettro migliora sostanzialmente con Muon², consentendo una convergenza più rapida verso un'ortogonalizzazione sufficiente. La qualità pratica dell'ortogonalizzazione è caratterizzata tramite l'allineamento direzionale, dove Muon² mostra un miglioramento drammatico rispetto a Muon ad ogni passo polare. Questo approccio aumenta l'efficienza del pre-addestramento su larga scala dei modelli fondamentali riducendo i requisiti di iterazione mantenendo le prestazioni di ottimizzazione.
Fatti principali
- Muon² è un'estensione dell'ottimizzatore Muon
- Applica un precondizionamento adattivo del secondo momento in stile Adam prima dell'ortogonalizzazione
- Il Muon originale utilizza l'ortogonalizzazione iterativa per sfruttare la struttura matriciale negli aggiornamenti delle reti neurali
- L'efficienza pratica di Muon è limitata da multiple iterazioni Newton-Schulz per passo
- Queste iterazioni creano sovraccarichi computazionali e di comunicazione
- La sfida principale è l'approssimazione polare dovuta a una matrice di momento mal condizionata
- Muon² migliora sostanzialmente lo spettro della matrice di momento
- Muon² dimostra un miglioramento drammatico nell'allineamento direzionale ad ogni passo polare
Entità
—