ELMoE-3D: Framework ibrido-bonding accelera la velocità di inferenza MoE
I ricercatori propongono ELMoE-3D, un framework co-progettato hardware-software che utilizza il bonding ibrido (HB) per accelerare l'inferenza dei modelli Mixture-of-Experts (MoE) nel serving on-premises. I modelli MoE sono dominanti per i grandi modelli linguistici ma soffrono di colli di bottiglia legati alla memoria a causa del calcolo sparso per token e dell'attivazione densa della memoria. Le architetture esistenti incentrate sulla memoria come PIM e NMP migliorano la larghezza di banda ma sottoutilizzano il calcolo con batch di grandi dimensioni. La decodifica speculativa (SD) riduce le invocazioni target ma carica comunque gli esperti per i token rifiutati, limitando il beneficio in MoE. ELMoE-3D unifica l'accelerazione basata su cache e la decodifica speculativa, sfruttando due assi di elasticità intrinseci di MoE — esperto e bit — per costruire la Decodifica Auto-Speculativa Elastica (Elastic-SD). L'approccio scala questi assi congiuntamente per offrire un'accelerazione complessiva su diverse dimensioni di batch. Il paper è disponibile su arXiv con identificatore 2604.14626.
Fatti principali
- ELMoE-3D utilizza il bonding ibrido (HB) per la co-progettazione HW-SW.
- I modelli MoE sono limitati dalla memoria nel serving on-premises.
- Le architetture PIM e NMP migliorano la larghezza di banda ma sottoutilizzano il calcolo.
- Il beneficio della decodifica speculativa è limitato in MoE a causa del caricamento degli esperti per i token rifiutati.
- Elastic-SD scala congiuntamente gli assi di elasticità esperto e bit.
- Il framework unifica l'accelerazione basata su cache e la decodifica speculativa.
- Paper disponibile su arXiv (2604.14626).
- Obiettivo: accelerazione complessiva su diverse dimensioni di batch.
Entità
Istituzioni
- arXiv