ARTFEED — Contemporary Art Intelligence

MiMuon Optimizer Migliora la Generalizzazione per Grandi Modelli di IA

ai-technology · 2026-05-20

Un nuovo ottimizzatore chiamato MiMuon (Muon Misto) è stato proposto per migliorare la generalizzazione dei modelli di intelligenza artificiale su larga scala. L'ottimizzatore Muon, progettato per parametri con struttura a matrice, converge più velocemente degli algoritmi vettoriali ma mancava di proprietà di generalizzazione consolidate. Questo articolo dimostra che Muon ha un errore di generalizzazione di O(1/(Nκ^T)), dove N è la dimensione del campione di addestramento, T è il numero di iterazioni e κ è la differenza minima tra i valori singolari delle stime del gradiente. Per migliorare la generalizzazione, gli autori introducono MiMuon, che combina Muon con altre tecniche. Il lavoro è pubblicato su arXiv con identificatore 2605.19619.

Fatti principali

  • MiMuon è un ottimizzatore Muon misto per modelli grandi.
  • L'ottimizzatore Muon mostra una convergenza più rapida rispetto agli algoritmi vettoriali.
  • L'errore di generalizzazione di Muon è O(1/(Nκ^T)).
  • N è la dimensione del campione di addestramento, T è il numero di iterazioni.
  • κ è la differenza minima tra i valori singolari della stima del gradiente.
  • L'articolo dimostra le proprietà di generalizzazione utilizzando stabilità algoritmica e induzione matematica.
  • MiMuon mira a migliorare la generalizzazione di Muon.
  • Pubblicato su arXiv con ID 2605.19619.

Entità

Istituzioni

  • arXiv

Fonti