CRAFT: Un Nuovo Framework di Apprendimento Continuo per LLM
I ricercatori propongono CRAFT, un framework di apprendimento continuo per modelli linguistici di grandi dimensioni che mitiga il dimenticanza catastrofica imparando interventi a basso rango sulle rappresentazioni nascoste invece di aggiornare i pesi del modello. Il metodo opera in tre fasi: instradare i compiti a gruppi simili in base alla divergenza della distribuzione di output, ottimizzare con divergenza KL rispetto allo stato precedente del gruppo per controllare l'oblio, e fondere gli interventi usando lo stesso segnale KL. Questo approccio unificato migliora le prestazioni e riduce l'oblio rispetto ai metodi basati su LoRA su più benchmark e scale di modello.
Fatti principali
- CRAFT evita di aggiornare i pesi del modello imparando interventi a basso rango sulle rappresentazioni nascoste.
- Il framework instrada ogni compito a un gruppo di compiti simili in base alla divergenza della distribuzione di output.
- L'ottimizzazione utilizza la divergenza KL rispetto allo stato precedente del gruppo per controllare l'oblio e determinare la convergenza.
- Gli interventi per i compiti aggiornati vengono fusi nella rappresentazione condivisa usando lo stesso segnale KL.
- CRAFT unifica instradamento, regolarizzazione e fusione attraverso un unico obiettivo basato su KL.
- CRAFT migliora le prestazioni complessive e riduce l'oblio rispetto ai forti approcci basati su LoRA.
- Il metodo è valutato su più benchmark e scale di modello.
- L'articolo è disponibile su arXiv con ID 2605.05732.
Entità
—