Muon² Optimizer Migliora l'Addestramento dei Modelli Fondamentali con Precondizionamento Adattivo

other · 2026-04-14

Muon² estende l'ottimizzatore Muon applicando un precondizionamento adattivo del secondo momento in stile Adam prima dell'ortogonalizzazione, affrontando le limitazioni di efficienza pratica. Il metodo Muon originale sfrutta la struttura matriciale negli aggiornamenti delle reti neurali attraverso l'ortogonalizzazione iterativa, ma richiede multiple iterazioni Newton-Schulz per ogni passo di ottimizzazione, creando sovraccarichi computazionali e di comunicazione. Un'osservazione chiave rivela che le sfide dell'approssimazione polare derivano da una matrice di momento mal condizionata, il cui spettro migliora sostanzialmente con Muon², consentendo una convergenza più rapida verso un'ortogonalizzazione sufficiente. La qualità pratica dell'ortogonalizzazione è caratterizzata tramite l'allineamento direzionale, dove Muon² mostra un miglioramento drammatico rispetto a Muon ad ogni passo polare. Questo approccio aumenta l'efficienza del pre-addestramento su larga scala dei modelli fondamentali riducendo i requisiti di iterazione mantenendo le prestazioni di ottimizzazione.

Fatti principali

Muon² è un'estensione dell'ottimizzatore Muon
Applica un precondizionamento adattivo del secondo momento in stile Adam prima dell'ortogonalizzazione
Il Muon originale utilizza l'ortogonalizzazione iterativa per sfruttare la struttura matriciale negli aggiornamenti delle reti neurali
L'efficienza pratica di Muon è limitata da multiple iterazioni Newton-Schulz per passo
Queste iterazioni creano sovraccarichi computazionali e di comunicazione
La sfida principale è l'approssimazione polare dovuta a una matrice di momento mal condizionata
Muon² migliora sostanzialmente lo spettro della matrice di momento
Muon² dimostra un miglioramento drammatico nell'allineamento direzionale ad ogni passo polare

Entità

—

Fonti

arXiv cs.AI — 2026-04-14