L'ottimizzatore MACRO demistifica i vincoli di varietà nel pre-training dei LLM
Uno studio recente pubblicato su arXiv (2605.04418) indaga approfonditamente come i vincoli espliciti di varietà influenzino il pre-training dei grandi modelli linguistici. La ricerca presenta MACRO (Msign-Aligned Constrained Riemannian Optimizer), un framework di ottimizzazione a ciclo singolo che garantisce convergenza separando le strategie di regolarizzazione dei pesi da processi come la normalizzazione RMS e il weight decay disaccoppiato. Sia le intuizioni teoriche che le valutazioni empiriche dimostrano che i vincoli di varietà regolano efficacemente le scale di attivazione forward e mantengono un equilibrio rotazionale stabile, superando i benefici dei metodi di stabilizzazione convenzionali. Questo studio chiarisce le ragioni alla base del miglioramento della stabilità numerica e delle prestazioni attraverso l'uso di vincoli, andando oltre gli approcci euristici.
Fatti principali
- Articolo arXiv 2605.04418
- Introduce l'ottimizzatore MACRO
- MACRO è un framework di ottimizzazione a ciclo singolo con convergenza dimostrabile
- I vincoli di varietà limitano le scale di attivazione forward
- I vincoli di varietà impongono un equilibrio rotazionale stabile
- Separa la regolarizzazione dei pesi dalla normalizzazione RMS e dal weight decay disaccoppiato
- Valutazioni empiriche confermano i risultati teorici
- Pubblicato su arXiv
Entità
Istituzioni
- arXiv