ARTFEED — Contemporary Art Intelligence

La narrazione geometrica dell'ottimizzatore Muon messa in discussione da una nuova ricerca

publication · 2026-05-13

Un nuovo articolo su arXiv mette in discussione la giustificazione geometrica dell'ottimizzatore Muon, introducendo Freon e Kaon come alternative. Freon utilizza (quasi-)norme di Schatten con un'approssimazione basata su QDWH, interpolando tra SGD e Muon. Esperimenti su GPT-2 mostrano prestazioni ottimali nel regime di quasi-norma, oltre gli LMO invarianti unitariamente. Kaon viene presentato come un ottimizzatore assurdo, minando ulteriormente la narrazione geometrica.

Fatti principali

  • 1. arXiv:2605.11181v1 mette in discussione la narrazione geometrica dell'ottimizzatore Muon.
  • 2. La famiglia di ottimizzatori Freon utilizza (quasi-)norme di Schatten con approssimazione iterativa basata su QDWH.
  • 3. Freon interpola tra SGD e Muon ed estrapola nel regime di quasi-norma.
  • 4. I migliori parametri di Schatten per GPT-2 si trovano nel regime di quasi-norma, non rappresentabili da LMO invariante unitariamente.
  • 5. L'ottimizzatore Kaon viene introdotto come un ottimizzatore assurdo.
  • 6. L'articolo presenta tre contributi che mettono in discussione la narrazione geometrica.
  • 7. Il successo dell'ottimizzatore Muon non è dovuto a una precisa struttura geometrica.
  • 8. L'approssimazione basata su QDWH è provabilmente ottimale.

Entità

Istituzioni

  • arXiv

Fonti