Collo di bottiglia nell'inferenza MoE: pattern di attivazione degli esperti in Llama 4, DeepSeek V3, Qwen3
Un nuovo preprint su arXiv (2604.23150) identifica lo squilibrio del carico degli esperti e il routing inefficiente dei token come colli di bottiglia fondamentali nell'inferenza multi-nodo di modelli Mixture-of-Experts (MoE) per grandi modelli linguistici. Gli autori hanno profilato modelli MoE open-source all'avanguardia—Llama 4 Maverick, DeepSeek V3-671B e Qwen3-230B-A22B—su vari dataset, raccogliendo oltre 100.000 tracce reali di attivazione degli esperti. Hanno scoperto proprietà persistenti in tutti i modelli MoE all'avanguardia: squilibrio variabile del carico degli esperti, attivazione degli esperti specifica per dominio e significativo overhead di comunicazione inter-nodo all-to-all quando i token non vengono instradati agli esperti locali. Lo studio caratterizza sistematicamente queste sfide per informare future strategie di ottimizzazione per un servizio MoE scalabile.
Fatti principali
- arXiv:2604.23150
- Inferenza MoE ostacolata da squilibrio del carico degli esperti e routing inefficiente dei token
- Le implementazioni multi-nodo soffrono di overhead di comunicazione inter-nodo all-to-all
- Profilati Llama 4 Maverick, DeepSeek V3-671B, Qwen3-230B-A22B
- Raccolte oltre 100.000 tracce reali di attivazione degli esperti
- Scoperto squilibrio variabile del carico degli esperti in tutti i modelli
- Osservati pattern di attivazione degli esperti specifici per dominio
- Lo studio mira a informare l'ottimizzazione per un servizio MoE scalabile
Entità
Istituzioni
- arXiv