SF-NorMuon: Ottimizzatore Spettrale Senza Programmazione che Eguaglia AdamW Ottimizzato
I ricercatori hanno introdotto SF-NorMuon, un nuovo ottimizzatore spettrale senza programmazione che colma il divario prestazionale tra le tecniche senza programmazione e i benchmark di AdamW ottimizzato. Testato su modelli linguistici con 125M e 772M parametri su orizzonti Chinchilla da 1 a 8 volte, SF-NorMuon raggiunge risultati che eguagliano o superano quelli di AdamW ottimizzato utilizzando una sola configurazione di iperparametri. Questo approccio elimina la necessità di programmi espliciti del tasso di apprendimento, consentendo checkpoint di alta qualità in qualsiasi fase dell'addestramento senza impegnarsi in un orizzonte specifico. Gli autori stabiliscono una garanzia di stazionarietà per le dinamiche dei metodi spettrali senza programmazione e sottolineano l'importanza del decadimento del peso nelle iterazioni veloci per mantenere la stabilità su lunghi orizzonti. Questa ricerca affronta i problemi di dipendenza dal percorso e la costosa riottimizzazione tipicamente riscontrata nell'addestramento convenzionale delle reti neurali.
Fatti principali
- SF-NorMuon è un ottimizzatore spettrale senza programmazione.
- Eguaglia o supera AdamW ottimizzato su modelli linguistici con 125M e 772M parametri.
- Valutato su orizzonti Chinchilla da 1 a 8 volte.
- Utilizza una singola configurazione di iperparametri.
- Elimina i programmi espliciti del tasso di apprendimento.
- Consente checkpoint in qualsiasi momento senza impegno sull'orizzonte.
- Dimostra una garanzia di stazionarietà per le dinamiche spettrali senza programmazione.
- Identifica il decadimento del peso nell'iterazione veloce come essenziale per la stabilità a lungo orizzonte.
Entità
—