Il framework DODOCO mette alla prova le ipotesi sul sovraccarico del dispatch in MoE
Esiste un nuovo framework chiamato DODOCO che sta rivoluzionando il settore mettendo in discussione due idee chiave alla base delle soluzioni per i ritardi di dispatch AlltoAll nel parallelismo Mixture-of-Experts (MoE). Sfida la nozione che il livello di sistema possa risolvere i problemi di routing e la convinzione che i benchmark con token fittizi rappresentino fedelmente il routing reale. DODOCO ha testato cinque modelli MoE — DeepSeek-V2-Lite MLA, DeepSeek-MoE-16B MHA, Qwen3-30B GQA, Nemotron-30B Mamba-2 e Qwen3.5-35B GDN — in una varietà di condizioni di dati. I risultati hanno mostrato che il scaling del parallelismo degli esperti modifica solo leggermente il rapporto token per esperto, indicando che il problema dello straggler è intrinseco al sistema.
Fatti principali
- Il dispatch AlltoAll è il collo di bottiglia dominante del parallelismo degli esperti in MoE.
- Esistono quattro famiglie di mitigazioni: posizionamento predittivo dei campioni, riorganizzazione adattiva degli esperti, collettivi gerarchici e topologia EP-aware.
- DODOCO testa due ipotesi: lo squilibrio del routing è correggibile e i benchmark con token fittizi rappresentano il routing di produzione.
- Cinque checkpoint MoE testati: DeepSeek-V2-Lite MLA, DeepSeek-MoE-16B MHA, Qwen3-30B GQA, Nemotron-30B Mamba-2, Qwen3.5-35B GDN.
- Gli esperimenti hanno utilizzato una griglia 5 per 6 di condizioni di dati e una scansione EP da 4 a 32 ranghi su H100.
- Entrambe le ipotesi falliscono; il scaling dell'EP modifica il rapporto max/medio token per esperto al massimo del 5%.
- Lo straggler è intrinseco, non correggibile dal livello di sistema.
- L'articolo è su arXiv con ID 2605.20982.
Entità
Istituzioni
- arXiv