Il framework CP-MoE affronta l'oblio catastrofico in LLM e VLM
Un team di ricercatori ha introdotto CP-MoE, un framework di apprendimento continuo progettato per modelli linguistici di grandi dimensioni (LLM) e modelli visione-linguaggio (VLM) per affrontare il problema dell'oblio catastrofico. Le attuali tecniche Mixture-of-Experts (MoE) basate su LoRA isolano eccessivamente gli esperti, ostacolando il trasferimento di conoscenza, oppure consentono aggiornamenti specifici per attività che sovrascrivono parametri cruciali. CP-MoE presenta un esperto transitorio che cattura gli aggiornamenti iniziali specifici per attività, facilitandone l'integrazione in esperti stabili. Inoltre, impiega un bias di routing che preserva la coerenza per valutare la similarità delle rappresentazioni, insieme a un metodo di regolarizzazione guidato dall'esperto transitorio. Questo approccio innovativo cerca di bilanciare il trasferimento di conoscenza e la prevenzione dell'oblio.
Fatti principali
- CP-MoE è un framework di apprendimento continuo per LLM e VLM.
- Affronta l'oblio catastrofico nei modelli linguistici di grandi dimensioni.
- I metodi MoE basati su LoRA esistenti affrontano un compromesso tra trasferimento di conoscenza e oblio.
- CP-MoE utilizza un esperto transitorio per catturare gli aggiornamenti iniziali specifici per attività.
- Introduce un bias di routing che preserva la coerenza.
- Il bias di routing stima la similarità delle rappresentazioni con esperti stabili.
- È incluso un meccanismo di regolarizzazione guidato dall'esperto transitorio.
- Il framework mira a migliorare la selezione degli esperti e ridurre l'oblio.
Entità
—