SCALE: Un ottimizzatore minimalista riduce la memoria per il pre-addestramento dei LLM
I ricercatori propongono SCALE (Stochastic Column-normAlized Last-layer momEntum), un ottimizzatore efficiente in termini di memoria per il pre-addestramento di grandi modelli linguistici. Combina la normalizzazione del gradiente per colonne e il momento del primo ordine solo sul layer di output, eguagliando le prestazioni di Adam con un overhead di memoria minimo.
Fatti principali
- 1. SCALE combina la normalizzazione del gradiente per colonne e il momento solo sul layer di output.
- 2. Eguaglia le prestazioni all'avanguardia di Adam nel pre-addestramento.
- 3. Riduce l'utilizzo di memoria rispetto ad Adam e ad altre varianti efficienti in memoria.
- 4. La normalizzazione per colonne normalizza i gradienti lungo la dimensione di output.
- 5. Il momento del primo ordine viene applicato solo dove la varianza del gradiente è più alta (layer di output).
- 6. L'approccio è una modifica minima rispetto al semplice SGD.
- 7. SCALE sta per Stochastic Column-normAlized Last-layer momEntum.
- 8. L'articolo è disponibile su arXiv con ID 2506.16659.
Entità
Istituzioni
- arXiv