Nuovo metodo calibra l'ottimizzatore Adam per LLM utilizzando il rapporto segnale-rumore

ai-technology · 2026-05-09

Un nuovo metodo, Module-wise Learning Rate Scaling via SNR (MoLS), affronta l'eterogeneità del gradiente nei modelli linguistici di grandi dimensioni stimando i rapporti segnale-rumore a livello di modulo per scalare gli aggiornamenti dell'ottimizzatore Adam. L'approccio, dettagliato in arXiv:2605.05794, automatizza l'allocazione del tasso di apprendimento per modulo senza regolazione manuale, con l'obiettivo di migliorare la convergenza e la stabilità nell'addestramento di LLM con composizioni eterogenee di moduli.

Fatti principali

arXiv:2605.05794 introduce MoLS
MoLS stima gli SNR a livello di modulo
MoLS scala automaticamente gli aggiornamenti di Adam
Affronta l'eterogeneità del gradiente nei LLM
Mira a migliorare convergenza e stabilità
Nessun tasso di apprendimento manuale specifico per modulo necessario
Pubblicato su arXiv
Tipo di annuncio: cross

Nuovo metodo calibra l'ottimizzatore Adam per LLM utilizzando il rapporto segnale-rumore

Fatti principali

Entità

Istituzioni

Fonti