MiMuon Optimizer Migliora la Generalizzazione per Grandi Modelli di IA
Un nuovo ottimizzatore chiamato MiMuon (Muon Misto) è stato proposto per migliorare la generalizzazione dei modelli di intelligenza artificiale su larga scala. L'ottimizzatore Muon, progettato per parametri con struttura a matrice, converge più velocemente degli algoritmi vettoriali ma mancava di proprietà di generalizzazione consolidate. Questo articolo dimostra che Muon ha un errore di generalizzazione di O(1/(Nκ^T)), dove N è la dimensione del campione di addestramento, T è il numero di iterazioni e κ è la differenza minima tra i valori singolari delle stime del gradiente. Per migliorare la generalizzazione, gli autori introducono MiMuon, che combina Muon con altre tecniche. Il lavoro è pubblicato su arXiv con identificatore 2605.19619.
Fatti principali
- MiMuon è un ottimizzatore Muon misto per modelli grandi.
- L'ottimizzatore Muon mostra una convergenza più rapida rispetto agli algoritmi vettoriali.
- L'errore di generalizzazione di Muon è O(1/(Nκ^T)).
- N è la dimensione del campione di addestramento, T è il numero di iterazioni.
- κ è la differenza minima tra i valori singolari della stima del gradiente.
- L'articolo dimostra le proprietà di generalizzazione utilizzando stabilità algoritmica e induzione matematica.
- MiMuon mira a migliorare la generalizzazione di Muon.
- Pubblicato su arXiv con ID 2605.19619.
Entità
Istituzioni
- arXiv