LMO-IGT: Accelerare l'Ottimizzazione Basata su LMO con Trasporto del Gradiente Implicito
Un nuovo articolo di ricerca propone LMO-IGT, una classe di metodi di ottimizzazione stocastica che sfruttano il trasporto del gradiente implicito per accelerare gli ottimizzatori basati su oracoli di minimizzazione lineare (LMO) come Lion e Muon. Gli autori introducono un framework unificato per l'ottimizzazione stocastica basata su LMO e una nuova misura di stazionarietà chiamata funzione di supporto regolarizzata (RSF), che collega i concetti di norma del gradiente e gap di Frank-Wolfe. Valutando i gradienti stocastici in punti trasportati, LMO-IGT mira a ridurre il costo computazionale rispetto alle tecniche di riduzione della varianza che richiedono valutazioni aggiuntive del gradiente. L'articolo affronta la comprensione teorica frammentata tra formulazioni non vincolate e vincolate. Il lavoro è pubblicato su arXiv con identificatore 2605.05577.
Fatti principali
- LMO-IGT è una nuova classe di metodi stocastici basati su LMO che utilizzano il trasporto del gradiente implicito.
- L'articolo propone un framework unificato per l'ottimizzazione stocastica basata su LMO.
- Viene introdotta una nuova misura di stazionarietà, la funzione di supporto regolarizzata (RSF).
- RSF collega i concetti di norma del gradiente e gap di Frank-Wolfe.
- LMO-IGT valuta i gradienti stocastici in punti trasportati.
- Il metodo mira ad accelerare gli ottimizzatori basati su LMO come Lion e Muon.
- La riduzione della varianza comporta tipicamente un costo computazionale aggiuntivo; LMO-IGT cerca di ridurlo.
- L'articolo è pubblicato su arXiv con identificatore 2605.05577.
Entità
Istituzioni
- arXiv