Il framework DODOCO mette alla prova le ipotesi sul sovraccarico del dispatch in MoE

publication · 2026-05-22

Esiste un nuovo framework chiamato DODOCO che sta rivoluzionando il settore mettendo in discussione due idee chiave alla base delle soluzioni per i ritardi di dispatch AlltoAll nel parallelismo Mixture-of-Experts (MoE). Sfida la nozione che il livello di sistema possa risolvere i problemi di routing e la convinzione che i benchmark con token fittizi rappresentino fedelmente il routing reale. DODOCO ha testato cinque modelli MoE — DeepSeek-V2-Lite MLA, DeepSeek-MoE-16B MHA, Qwen3-30B GQA, Nemotron-30B Mamba-2 e Qwen3.5-35B GDN — in una varietà di condizioni di dati. I risultati hanno mostrato che il scaling del parallelismo degli esperti modifica solo leggermente il rapporto token per esperto, indicando che il problema dello straggler è intrinseco al sistema.

Fatti principali

Il dispatch AlltoAll è il collo di bottiglia dominante del parallelismo degli esperti in MoE.
Esistono quattro famiglie di mitigazioni: posizionamento predittivo dei campioni, riorganizzazione adattiva degli esperti, collettivi gerarchici e topologia EP-aware.
DODOCO testa due ipotesi: lo squilibrio del routing è correggibile e i benchmark con token fittizi rappresentano il routing di produzione.
Cinque checkpoint MoE testati: DeepSeek-V2-Lite MLA, DeepSeek-MoE-16B MHA, Qwen3-30B GQA, Nemotron-30B Mamba-2, Qwen3.5-35B GDN.
Gli esperimenti hanno utilizzato una griglia 5 per 6 di condizioni di dati e una scansione EP da 4 a 32 ranghi su H100.
Entrambe le ipotesi falliscono; il scaling dell'EP modifica il rapporto max/medio token per esperto al massimo del 5%.
Lo straggler è intrinseco, non correggibile dal livello di sistema.
L'articolo è su arXiv con ID 2605.20982.

Il framework DODOCO mette alla prova le ipotesi sul sovraccarico del dispatch in MoE

Fatti principali

Entità

Istituzioni

Fonti