Fallimento Nascosto della Modifica del Gradiente Sotto Adam nell'Apprendimento Continuo

other · 2026-04-27

Un recente preprint su arXiv (2604.22407) indica che i metodi per modificare i gradienti, come il rescaling delle penalità, la proiezione e il replay mixing, non funzionano bene se usati con l'ottimizzatore Adam in scenari di apprendimento continuo. In un modello linguistico continuo a 8 domini, le prestazioni di tutte le baseline di proiezione a routing condiviso sono degenerate a livelli simili al semplice forgetting (12.5–12.8 rispetto a 13.2). Un buffer di replay dello 0.5% ha raggiunto 11.6, mentre il disaccoppiamento a forza fissa è sceso sotto il vanilla a 14.1. Solo il routing disaccoppiato adattivo ha mostrato stabilità con un punteggio di 9.4, superando il vanilla di 3.8 unità. In uno stream a 16 domini, il suo vantaggio rispetto alla migliore baseline di proiezione a routing condiviso è aumentato a 4.5–4.8 unità. Questo fallimento rimane in gran parte non rilevato su benchmark puliti, come spiegato dalla discussione dell'articolo sul percorso del secondo momento di Adam, dove la proiezione porta a un aumento di 1/(1-alpha) del tasso di apprendimento effettivo nelle direzioni vecchie.

Fatti principali

I metodi di modifica del gradiente falliscono sotto Adam nell'apprendimento continuo
LM continuo a 8 domini: le baseline di proiezione a routing condiviso collassano (12.5–12.8 vs 13.2)
Buffer di replay dello 0.5% è l'alternativa condivisa più forte a 11.6
Il disaccoppiamento a forza fissa scende sotto il vanilla a 14.1
Il routing disaccoppiato adattivo è stabile a 9.4, migliora di 3.8 unità
Su stream a 16 domini, il guadagno rispetto alla baseline di proiezione cresce a 4.5–4.8 unità
Il fallimento è invisibile su benchmark puliti
Il percorso del secondo momento di Adam causa un'inflazione di 1/(1-alpha) del tasso di apprendimento effettivo

Fallimento Nascosto della Modifica del Gradiente Sotto Adam nell'Apprendimento Continuo

Fatti principali

Entità

Istituzioni

Fonti