ELMoE-3D: Framework ibrido-bonding accelera la velocità di inferenza MoE

ai-technology · 2026-04-25

I ricercatori propongono ELMoE-3D, un framework co-progettato hardware-software che utilizza il bonding ibrido (HB) per accelerare l'inferenza dei modelli Mixture-of-Experts (MoE) nel serving on-premises. I modelli MoE sono dominanti per i grandi modelli linguistici ma soffrono di colli di bottiglia legati alla memoria a causa del calcolo sparso per token e dell'attivazione densa della memoria. Le architetture esistenti incentrate sulla memoria come PIM e NMP migliorano la larghezza di banda ma sottoutilizzano il calcolo con batch di grandi dimensioni. La decodifica speculativa (SD) riduce le invocazioni target ma carica comunque gli esperti per i token rifiutati, limitando il beneficio in MoE. ELMoE-3D unifica l'accelerazione basata su cache e la decodifica speculativa, sfruttando due assi di elasticità intrinseci di MoE — esperto e bit — per costruire la Decodifica Auto-Speculativa Elastica (Elastic-SD). L'approccio scala questi assi congiuntamente per offrire un'accelerazione complessiva su diverse dimensioni di batch. Il paper è disponibile su arXiv con identificatore 2604.14626.

Fatti principali

ELMoE-3D utilizza il bonding ibrido (HB) per la co-progettazione HW-SW.
I modelli MoE sono limitati dalla memoria nel serving on-premises.
Le architetture PIM e NMP migliorano la larghezza di banda ma sottoutilizzano il calcolo.
Il beneficio della decodifica speculativa è limitato in MoE a causa del caricamento degli esperti per i token rifiutati.
Elastic-SD scala congiuntamente gli assi di elasticità esperto e bit.
Il framework unifica l'accelerazione basata su cache e la decodifica speculativa.
Paper disponibile su arXiv (2604.14626).
Obiettivo: accelerazione complessiva su diverse dimensioni di batch.

ELMoE-3D: Framework ibrido-bonding accelera la velocità di inferenza MoE

Fatti principali

Entità

Istituzioni

Fonti