Upcycling Esperto: Scalare Efficientemente i Modelli Mixture-of-Experts
Un nuovo metodo chiamato expert upcycling consente l'espansione progressiva dei modelli linguistici di grandi dimensioni Mixture-of-Experts (MoE) aumentando il numero di esperti durante il pre-addestramento continuato. La tecnica duplica gli esperti esistenti ed estende il router mantenendo fissa la selezione top-K, preservando il costo di inferenza per token. Ciò fornisce un'inizializzazione calda da un modello addestrato, riducendo il sovraccarico di memoria e comunicazione rispetto all'addestramento di MoE più grandi da zero. L'approccio mira a spostare la frontiera computazionalmente efficiente scalando i parametri totali senza aumentare il calcolo attivo. L'articolo è pubblicato su arXiv con identificativo 2604.19835.
Fatti principali
- L'expert upcycling espande la capacità MoE aumentando il numero di esperti durante il pre-addestramento continuato.
- Il metodo duplica gli esperti ed estende il router mantenendo fissa la selezione top-K.
- Preserva il costo di inferenza per token e fornisce un'inizializzazione calda da un modello addestrato.
- Addestrare MoE grandi è costoso a causa della memoria e della comunicazione che scalano con i parametri totali.
- La tecnica mira a spostare la frontiera computazionalmente efficiente per i modelli MoE.
- Articolo disponibile su arXiv: 2604.19835.
Entità
Istituzioni
- arXiv