HTMuon: La correzione spettrale a coda pesante migliora l'ottimizzatore Muon
HTMuon, un ottimizzatore introdotto in arXiv:2603.10067, migliora l'ottimizzatore Muon affrontando i suoi problemi di soppressione degli spettri dei pesi a coda pesante e l'eccessiva attenzione alle direzioni dominate dal rumore. Ispirandosi alla teoria dell'autoregolarizzazione a coda pesante (HT-SR), HTMuon genera aggiornamenti con code più pesanti e favorisce spettri dei pesi a coda pesante, mantenendo al contempo la capacità di Muon di catturare le interdipendenze tra i parametri. In esperimenti che coinvolgono il pre-addestramento di LLM e la classificazione delle immagini, HTMuon supera costantemente i baselines leader e può essere integrato nelle varianti attuali di Muon. In particolare, durante il pre-addestramento di LLaMA sul dataset C4, HTMuon raggiunge una riduzione della perplexity fino a 0,98 rispetto a Muon. Teoricamente, HTMuon si allinea con la discesa più ripida sotto la norma di Schatten-q.
Fatti principali
- HTMuon migliora l'ottimizzatore Muon tramite correzione spettrale a coda pesante.
- La regola di aggiornamento ortogonalizzata di Muon sopprime gli spettri dei pesi a coda pesante.
- HTMuon è motivato dalla teoria dell'autoregolarizzazione a coda pesante (HT-SR).
- HTMuon produce aggiornamenti a coda più pesante e induce spettri dei pesi a coda pesante.
- Esperimenti su pre-addestramento di LLM e classificazione delle immagini mostrano prestazioni migliorate.
- HTMuon può fungere da plugin per le varianti esistenti di Muon.
- Nel pre-addestramento di LLaMA sul dataset C4, HTMuon riduce la perplexity fino a 0,98.
- HTMuon corrisponde alla discesa più ripida sotto la norma di Schatten-q.
Entità
Istituzioni
- arXiv