MiMuon Optimizer Migliora la Generalizzazione per Grandi Modelli di IA

ai-technology · 2026-05-20

Un nuovo ottimizzatore chiamato MiMuon (Muon Misto) è stato proposto per migliorare la generalizzazione dei modelli di intelligenza artificiale su larga scala. L'ottimizzatore Muon, progettato per parametri con struttura a matrice, converge più velocemente degli algoritmi vettoriali ma mancava di proprietà di generalizzazione consolidate. Questo articolo dimostra che Muon ha un errore di generalizzazione di O(1/(Nκ^T)), dove N è la dimensione del campione di addestramento, T è il numero di iterazioni e κ è la differenza minima tra i valori singolari delle stime del gradiente. Per migliorare la generalizzazione, gli autori introducono MiMuon, che combina Muon con altre tecniche. Il lavoro è pubblicato su arXiv con identificatore 2605.19619.

Fatti principali

MiMuon è un ottimizzatore Muon misto per modelli grandi.
L'ottimizzatore Muon mostra una convergenza più rapida rispetto agli algoritmi vettoriali.
L'errore di generalizzazione di Muon è O(1/(Nκ^T)).
N è la dimensione del campione di addestramento, T è il numero di iterazioni.
κ è la differenza minima tra i valori singolari della stima del gradiente.
L'articolo dimostra le proprietà di generalizzazione utilizzando stabilità algoritmica e induzione matematica.
MiMuon mira a migliorare la generalizzazione di Muon.
Pubblicato su arXiv con ID 2605.19619.

MiMuon Optimizer Migliora la Generalizzazione per Grandi Modelli di IA

Fatti principali

Entità

Istituzioni

Fonti