L'ottimizzatore MACRO demistifica i vincoli di varietà nel pre-training dei LLM

ai-technology · 2026-05-07

Uno studio recente pubblicato su arXiv (2605.04418) indaga approfonditamente come i vincoli espliciti di varietà influenzino il pre-training dei grandi modelli linguistici. La ricerca presenta MACRO (Msign-Aligned Constrained Riemannian Optimizer), un framework di ottimizzazione a ciclo singolo che garantisce convergenza separando le strategie di regolarizzazione dei pesi da processi come la normalizzazione RMS e il weight decay disaccoppiato. Sia le intuizioni teoriche che le valutazioni empiriche dimostrano che i vincoli di varietà regolano efficacemente le scale di attivazione forward e mantengono un equilibrio rotazionale stabile, superando i benefici dei metodi di stabilizzazione convenzionali. Questo studio chiarisce le ragioni alla base del miglioramento della stabilità numerica e delle prestazioni attraverso l'uso di vincoli, andando oltre gli approcci euristici.

Fatti principali

Articolo arXiv 2605.04418
Introduce l'ottimizzatore MACRO
MACRO è un framework di ottimizzazione a ciclo singolo con convergenza dimostrabile
I vincoli di varietà limitano le scale di attivazione forward
I vincoli di varietà impongono un equilibrio rotazionale stabile
Separa la regolarizzazione dei pesi dalla normalizzazione RMS e dal weight decay disaccoppiato
Valutazioni empiriche confermano i risultati teorici
Pubblicato su arXiv

L'ottimizzatore MACRO demistifica i vincoli di varietà nel pre-training dei LLM

Fatti principali

Entità

Istituzioni

Fonti