ARTFEED — Contemporary Art Intelligence

L'ottimizzatore MACRO demistifica i vincoli di varietà nel pre-training dei LLM

ai-technology · 2026-05-07

Uno studio recente pubblicato su arXiv (2605.04418) indaga approfonditamente come i vincoli espliciti di varietà influenzino il pre-training dei grandi modelli linguistici. La ricerca presenta MACRO (Msign-Aligned Constrained Riemannian Optimizer), un framework di ottimizzazione a ciclo singolo che garantisce convergenza separando le strategie di regolarizzazione dei pesi da processi come la normalizzazione RMS e il weight decay disaccoppiato. Sia le intuizioni teoriche che le valutazioni empiriche dimostrano che i vincoli di varietà regolano efficacemente le scale di attivazione forward e mantengono un equilibrio rotazionale stabile, superando i benefici dei metodi di stabilizzazione convenzionali. Questo studio chiarisce le ragioni alla base del miglioramento della stabilità numerica e delle prestazioni attraverso l'uso di vincoli, andando oltre gli approcci euristici.

Fatti principali

  • Articolo arXiv 2605.04418
  • Introduce l'ottimizzatore MACRO
  • MACRO è un framework di ottimizzazione a ciclo singolo con convergenza dimostrabile
  • I vincoli di varietà limitano le scale di attivazione forward
  • I vincoli di varietà impongono un equilibrio rotazionale stabile
  • Separa la regolarizzazione dei pesi dalla normalizzazione RMS e dal weight decay disaccoppiato
  • Valutazioni empiriche confermano i risultati teorici
  • Pubblicato su arXiv

Entità

Istituzioni

  • arXiv

Fonti