SCALE: Un ottimizzatore minimalista riduce la memoria per il pre-addestramento dei LLM

ai-technology · 2026-05-23

I ricercatori propongono SCALE (Stochastic Column-normAlized Last-layer momEntum), un ottimizzatore efficiente in termini di memoria per il pre-addestramento di grandi modelli linguistici. Combina la normalizzazione del gradiente per colonne e il momento del primo ordine solo sul layer di output, eguagliando le prestazioni di Adam con un overhead di memoria minimo.

Fatti principali

1. SCALE combina la normalizzazione del gradiente per colonne e il momento solo sul layer di output.
2. Eguaglia le prestazioni all'avanguardia di Adam nel pre-addestramento.
3. Riduce l'utilizzo di memoria rispetto ad Adam e ad altre varianti efficienti in memoria.
4. La normalizzazione per colonne normalizza i gradienti lungo la dimensione di output.
5. Il momento del primo ordine viene applicato solo dove la varianza del gradiente è più alta (layer di output).
6. L'approccio è una modifica minima rispetto al semplice SGD.
7. SCALE sta per Stochastic Column-normAlized Last-layer momEntum.
8. L'articolo è disponibile su arXiv con ID 2506.16659.

SCALE: Un ottimizzatore minimalista riduce la memoria per il pre-addestramento dei LLM

Fatti principali

Entità

Istituzioni

Fonti