Nuovo Metodo di Ottimizzazione Adattiva Collega SGD e Muon
Un nuovo articolo su arXiv introduce un criterio basato sui dati per selezionare dinamicamente geometrie di aggiornamento ottimali nell'ottimizzazione di reti neurali profonde. Il metodo unifica ottimizzatori esistenti come SGD, Muon, Adam e MuAdam come casi particolari, utilizzando un criterio in forma chiusa derivato dalle statistiche dei gradienti e delle attivazioni tramite un modello surrogato di regressione a caratteristiche casuali a singolo passo. Questo approccio adattivo scala efficientemente con strategie computazionali, potenzialmente migliorando le dinamiche di addestramento su diverse architetture.
Fatti principali
- L'articolo arXiv:2605.19781 introduce l'ottimizzazione adattiva tramite norme di Schatten-p.
- Il metodo sceglie dinamicamente geometrie LMO proxy-ottimali per ogni strato.
- Il criterio è derivato dalle statistiche dei gradienti e delle attivazioni utilizzando la regressione a caratteristiche casuali.
- Unifica SGD, Muon, Adam e MuAdam come estremi specifici.
- Scalabile tramite strategie computazionali efficienti.
Entità
Istituzioni
- arXiv