Upcycling Esperto: Scalare Efficientemente i Modelli Mixture-of-Experts

ai-technology · 2026-04-24

Un nuovo metodo chiamato expert upcycling consente l'espansione progressiva dei modelli linguistici di grandi dimensioni Mixture-of-Experts (MoE) aumentando il numero di esperti durante il pre-addestramento continuato. La tecnica duplica gli esperti esistenti ed estende il router mantenendo fissa la selezione top-K, preservando il costo di inferenza per token. Ciò fornisce un'inizializzazione calda da un modello addestrato, riducendo il sovraccarico di memoria e comunicazione rispetto all'addestramento di MoE più grandi da zero. L'approccio mira a spostare la frontiera computazionalmente efficiente scalando i parametri totali senza aumentare il calcolo attivo. L'articolo è pubblicato su arXiv con identificativo 2604.19835.

Fatti principali

L'expert upcycling espande la capacità MoE aumentando il numero di esperti durante il pre-addestramento continuato.
Il metodo duplica gli esperti ed estende il router mantenendo fissa la selezione top-K.
Preserva il costo di inferenza per token e fornisce un'inizializzazione calda da un modello addestrato.
Addestrare MoE grandi è costoso a causa della memoria e della comunicazione che scalano con i parametri totali.
La tecnica mira a spostare la frontiera computazionalmente efficiente per i modelli MoE.
Articolo disponibile su arXiv: 2604.19835.

Upcycling Esperto: Scalare Efficientemente i Modelli Mixture-of-Experts

Fatti principali

Entità

Istituzioni

Fonti