DisagMoE: Sovrapposizione di Calcolo e Comunicazione nell'Addestramento MoE
DisagMoE è un sistema innovativo per l'addestramento di modelli Mixture-of-Experts (MoE), utilizzati per modelli linguistici di grandi dimensioni (LLM) con trilioni di parametri. Le architetture MoE si basano su esperti attivati in modo sparso e il parallelismo degli esperti (EP) è una strategia di addestramento comune. Tuttavia, l'EP soffre di colli di bottiglia nella comunicazione all-to-all, specialmente quando la dimensione del modello cresce e gli esperti devono essere distribuiti su nodi GPU con larghezza di banda inter-nodo limitata. Lavori precedenti hanno tentato di sovrapporre queste comunicazioni con i calcoli della rete feed-forward (FFN) e dell'auto-attenzione, ma rimangono stalli residui legati alla rete a causa dello squilibrio nei rapporti calcolo-comunicazione. DisagMoE affronta questo problema disaggregando i livelli di attenzione e FFN in gruppi GPU disgiunti, introducendo una pipeline multi-stadio con comunicazioni uni-direzionali many-to-many. Il sistema ottimizza congiuntamente il posizionamento del modello e la schedulazione per la massima efficienza. L'articolo è disponibile su arXiv con ID 2605.11005.
Fatti principali
- DisagMoE è un sistema di addestramento MoE disaggregato.
- Separa i livelli di attenzione e FFN in gruppi GPU disgiunti.
- Utilizza una pipeline multi-stadio con comunicazioni uni-direzionali many-to-many.
- Ottimizza congiuntamente il posizionamento del modello e la schedulazione.
- L'articolo è su arXiv con ID 2605.11005.
- Le architetture MoE consentono LLM con trilioni di parametri.
- Il parallelismo degli esperti soffre di colli di bottiglia nella comunicazione all-to-all.
- Lavori precedenti hanno lasciato stalli residui legati alla rete.
Entità
Istituzioni
- arXiv