La narrazione geometrica dell'ottimizzatore Muon messa in discussione da una nuova ricerca
Un nuovo articolo su arXiv mette in discussione la giustificazione geometrica dell'ottimizzatore Muon, introducendo Freon e Kaon come alternative. Freon utilizza (quasi-)norme di Schatten con un'approssimazione basata su QDWH, interpolando tra SGD e Muon. Esperimenti su GPT-2 mostrano prestazioni ottimali nel regime di quasi-norma, oltre gli LMO invarianti unitariamente. Kaon viene presentato come un ottimizzatore assurdo, minando ulteriormente la narrazione geometrica.
Fatti principali
- 1. arXiv:2605.11181v1 mette in discussione la narrazione geometrica dell'ottimizzatore Muon.
- 2. La famiglia di ottimizzatori Freon utilizza (quasi-)norme di Schatten con approssimazione iterativa basata su QDWH.
- 3. Freon interpola tra SGD e Muon ed estrapola nel regime di quasi-norma.
- 4. I migliori parametri di Schatten per GPT-2 si trovano nel regime di quasi-norma, non rappresentabili da LMO invariante unitariamente.
- 5. L'ottimizzatore Kaon viene introdotto come un ottimizzatore assurdo.
- 6. L'articolo presenta tre contributi che mettono in discussione la narrazione geometrica.
- 7. Il successo dell'ottimizzatore Muon non è dovuto a una precisa struttura geometrica.
- 8. L'approssimazione basata su QDWH è provabilmente ottimale.
Entità
Istituzioni
- arXiv