Nuovo metodo calibra l'ottimizzatore Adam per LLM utilizzando il rapporto segnale-rumore
Un nuovo metodo, Module-wise Learning Rate Scaling via SNR (MoLS), affronta l'eterogeneità del gradiente nei modelli linguistici di grandi dimensioni stimando i rapporti segnale-rumore a livello di modulo per scalare gli aggiornamenti dell'ottimizzatore Adam. L'approccio, dettagliato in arXiv:2605.05794, automatizza l'allocazione del tasso di apprendimento per modulo senza regolazione manuale, con l'obiettivo di migliorare la convergenza e la stabilità nell'addestramento di LLM con composizioni eterogenee di moduli.
Fatti principali
- arXiv:2605.05794 introduce MoLS
- MoLS stima gli SNR a livello di modulo
- MoLS scala automaticamente gli aggiornamenti di Adam
- Affronta l'eterogeneità del gradiente nei LLM
- Mira a migliorare convergenza e stabilità
- Nessun tasso di apprendimento manuale specifico per modulo necessario
- Pubblicato su arXiv
- Tipo di annuncio: cross
Entità
Istituzioni
- arXiv