DisagMoE: Sovrapposizione di Calcolo e Comunicazione nell'Addestramento MoE

ai-technology · 2026-05-13

DisagMoE è un sistema innovativo per l'addestramento di modelli Mixture-of-Experts (MoE), utilizzati per modelli linguistici di grandi dimensioni (LLM) con trilioni di parametri. Le architetture MoE si basano su esperti attivati in modo sparso e il parallelismo degli esperti (EP) è una strategia di addestramento comune. Tuttavia, l'EP soffre di colli di bottiglia nella comunicazione all-to-all, specialmente quando la dimensione del modello cresce e gli esperti devono essere distribuiti su nodi GPU con larghezza di banda inter-nodo limitata. Lavori precedenti hanno tentato di sovrapporre queste comunicazioni con i calcoli della rete feed-forward (FFN) e dell'auto-attenzione, ma rimangono stalli residui legati alla rete a causa dello squilibrio nei rapporti calcolo-comunicazione. DisagMoE affronta questo problema disaggregando i livelli di attenzione e FFN in gruppi GPU disgiunti, introducendo una pipeline multi-stadio con comunicazioni uni-direzionali many-to-many. Il sistema ottimizza congiuntamente il posizionamento del modello e la schedulazione per la massima efficienza. L'articolo è disponibile su arXiv con ID 2605.11005.

Fatti principali

DisagMoE è un sistema di addestramento MoE disaggregato.
Separa i livelli di attenzione e FFN in gruppi GPU disgiunti.
Utilizza una pipeline multi-stadio con comunicazioni uni-direzionali many-to-many.
Ottimizza congiuntamente il posizionamento del modello e la schedulazione.
L'articolo è su arXiv con ID 2605.11005.
Le architetture MoE consentono LLM con trilioni di parametri.
Il parallelismo degli esperti soffre di colli di bottiglia nella comunicazione all-to-all.
Lavori precedenti hanno lasciato stalli residui legati alla rete.

DisagMoE: Sovrapposizione di Calcolo e Comunicazione nell'Addestramento MoE

Fatti principali

Entità

Istituzioni

Fonti