Collo di bottiglia nell'inferenza MoE: pattern di attivazione degli esperti in Llama 4, DeepSeek V3, Qwen3

ai-technology · 2026-04-29

Un nuovo preprint su arXiv (2604.23150) identifica lo squilibrio del carico degli esperti e il routing inefficiente dei token come colli di bottiglia fondamentali nell'inferenza multi-nodo di modelli Mixture-of-Experts (MoE) per grandi modelli linguistici. Gli autori hanno profilato modelli MoE open-source all'avanguardia—Llama 4 Maverick, DeepSeek V3-671B e Qwen3-230B-A22B—su vari dataset, raccogliendo oltre 100.000 tracce reali di attivazione degli esperti. Hanno scoperto proprietà persistenti in tutti i modelli MoE all'avanguardia: squilibrio variabile del carico degli esperti, attivazione degli esperti specifica per dominio e significativo overhead di comunicazione inter-nodo all-to-all quando i token non vengono instradati agli esperti locali. Lo studio caratterizza sistematicamente queste sfide per informare future strategie di ottimizzazione per un servizio MoE scalabile.

Fatti principali

arXiv:2604.23150
Inferenza MoE ostacolata da squilibrio del carico degli esperti e routing inefficiente dei token
Le implementazioni multi-nodo soffrono di overhead di comunicazione inter-nodo all-to-all
Profilati Llama 4 Maverick, DeepSeek V3-671B, Qwen3-230B-A22B
Raccolte oltre 100.000 tracce reali di attivazione degli esperti
Scoperto squilibrio variabile del carico degli esperti in tutti i modelli
Osservati pattern di attivazione degli esperti specifici per dominio
Lo studio mira a informare l'ottimizzazione per un servizio MoE scalabile

Collo di bottiglia nell'inferenza MoE: pattern di attivazione degli esperti in Llama 4, DeepSeek V3, Qwen3

Fatti principali

Entità

Istituzioni

Fonti