ARTFEED — Contemporary Art Intelligence

Upcycling Esperto: Scalare Efficientemente i Modelli Mixture-of-Experts

ai-technology · 2026-04-24

Un nuovo metodo chiamato expert upcycling consente l'espansione progressiva dei modelli linguistici di grandi dimensioni Mixture-of-Experts (MoE) aumentando il numero di esperti durante il pre-addestramento continuato. La tecnica duplica gli esperti esistenti ed estende il router mantenendo fissa la selezione top-K, preservando il costo di inferenza per token. Ciò fornisce un'inizializzazione calda da un modello addestrato, riducendo il sovraccarico di memoria e comunicazione rispetto all'addestramento di MoE più grandi da zero. L'approccio mira a spostare la frontiera computazionalmente efficiente scalando i parametri totali senza aumentare il calcolo attivo. L'articolo è pubblicato su arXiv con identificativo 2604.19835.

Fatti principali

  • L'expert upcycling espande la capacità MoE aumentando il numero di esperti durante il pre-addestramento continuato.
  • Il metodo duplica gli esperti ed estende il router mantenendo fissa la selezione top-K.
  • Preserva il costo di inferenza per token e fornisce un'inizializzazione calda da un modello addestrato.
  • Addestrare MoE grandi è costoso a causa della memoria e della comunicazione che scalano con i parametri totali.
  • La tecnica mira a spostare la frontiera computazionalmente efficiente per i modelli MoE.
  • Articolo disponibile su arXiv: 2604.19835.

Entità

Istituzioni

  • arXiv

Fonti