Fallimento Nascosto della Modifica del Gradiente Sotto Adam nell'Apprendimento Continuo
Un recente preprint su arXiv (2604.22407) indica che i metodi per modificare i gradienti, come il rescaling delle penalità, la proiezione e il replay mixing, non funzionano bene se usati con l'ottimizzatore Adam in scenari di apprendimento continuo. In un modello linguistico continuo a 8 domini, le prestazioni di tutte le baseline di proiezione a routing condiviso sono degenerate a livelli simili al semplice forgetting (12.5–12.8 rispetto a 13.2). Un buffer di replay dello 0.5% ha raggiunto 11.6, mentre il disaccoppiamento a forza fissa è sceso sotto il vanilla a 14.1. Solo il routing disaccoppiato adattivo ha mostrato stabilità con un punteggio di 9.4, superando il vanilla di 3.8 unità. In uno stream a 16 domini, il suo vantaggio rispetto alla migliore baseline di proiezione a routing condiviso è aumentato a 4.5–4.8 unità. Questo fallimento rimane in gran parte non rilevato su benchmark puliti, come spiegato dalla discussione dell'articolo sul percorso del secondo momento di Adam, dove la proiezione porta a un aumento di 1/(1-alpha) del tasso di apprendimento effettivo nelle direzioni vecchie.
Fatti principali
- I metodi di modifica del gradiente falliscono sotto Adam nell'apprendimento continuo
- LM continuo a 8 domini: le baseline di proiezione a routing condiviso collassano (12.5–12.8 vs 13.2)
- Buffer di replay dello 0.5% è l'alternativa condivisa più forte a 11.6
- Il disaccoppiamento a forza fissa scende sotto il vanilla a 14.1
- Il routing disaccoppiato adattivo è stabile a 9.4, migliora di 3.8 unità
- Su stream a 16 domini, il guadagno rispetto alla baseline di proiezione cresce a 4.5–4.8 unità
- Il fallimento è invisibile su benchmark puliti
- Il percorso del secondo momento di Adam causa un'inflazione di 1/(1-alpha) del tasso di apprendimento effettivo
Entità
Istituzioni
- arXiv