ARTFEED — Contemporary Art Intelligence

SCALE: Un ottimizzatore minimalista riduce la memoria per il pre-addestramento dei LLM

ai-technology · 2026-05-23

I ricercatori propongono SCALE (Stochastic Column-normAlized Last-layer momEntum), un ottimizzatore efficiente in termini di memoria per il pre-addestramento di grandi modelli linguistici. Combina la normalizzazione del gradiente per colonne e il momento del primo ordine solo sul layer di output, eguagliando le prestazioni di Adam con un overhead di memoria minimo.

Fatti principali

  • 1. SCALE combina la normalizzazione del gradiente per colonne e il momento solo sul layer di output.
  • 2. Eguaglia le prestazioni all'avanguardia di Adam nel pre-addestramento.
  • 3. Riduce l'utilizzo di memoria rispetto ad Adam e ad altre varianti efficienti in memoria.
  • 4. La normalizzazione per colonne normalizza i gradienti lungo la dimensione di output.
  • 5. Il momento del primo ordine viene applicato solo dove la varianza del gradiente è più alta (layer di output).
  • 6. L'approccio è una modifica minima rispetto al semplice SGD.
  • 7. SCALE sta per Stochastic Column-normAlized Last-layer momEntum.
  • 8. L'articolo è disponibile su arXiv con ID 2506.16659.

Entità

Istituzioni

  • arXiv

Fonti