La narrazione geometrica dell'ottimizzatore Muon messa in discussione da una nuova ricerca

publication · 2026-05-13

Un nuovo articolo su arXiv mette in discussione la giustificazione geometrica dell'ottimizzatore Muon, introducendo Freon e Kaon come alternative. Freon utilizza (quasi-)norme di Schatten con un'approssimazione basata su QDWH, interpolando tra SGD e Muon. Esperimenti su GPT-2 mostrano prestazioni ottimali nel regime di quasi-norma, oltre gli LMO invarianti unitariamente. Kaon viene presentato come un ottimizzatore assurdo, minando ulteriormente la narrazione geometrica.

Fatti principali

1. arXiv:2605.11181v1 mette in discussione la narrazione geometrica dell'ottimizzatore Muon.
2. La famiglia di ottimizzatori Freon utilizza (quasi-)norme di Schatten con approssimazione iterativa basata su QDWH.
3. Freon interpola tra SGD e Muon ed estrapola nel regime di quasi-norma.
4. I migliori parametri di Schatten per GPT-2 si trovano nel regime di quasi-norma, non rappresentabili da LMO invariante unitariamente.
5. L'ottimizzatore Kaon viene introdotto come un ottimizzatore assurdo.
6. L'articolo presenta tre contributi che mettono in discussione la narrazione geometrica.
7. Il successo dell'ottimizzatore Muon non è dovuto a una precisa struttura geometrica.
8. L'approssimazione basata su QDWH è provabilmente ottimale.

La narrazione geometrica dell'ottimizzatore Muon messa in discussione da una nuova ricerca

Fatti principali

Entità

Istituzioni

Fonti