GEM: Mappatura degli Esperti Consapevole della Variabilità delle GPU per Modelli MoE
Il framework GEM (GPU-variability-aware Expert Mapping) affronta una sfida significativa nel servire modelli Mixture-of-Expert (MoE). Questi modelli utilizzano esperti più piccoli e attivano solo una parte per ogni token, distribuendoli su varie GPU. Tuttavia, le prestazioni sono ostacolate dalle barriere di sincronizzazione durante l'elaborazione a passo bloccato, dove la GPU più lenta, nota come straggler, determina la velocità complessiva. Gli straggler si verificano quando esperti frequentemente utilizzati vengono assegnati alla stessa GPU o a GPU più lente. Gli approcci precedenti si concentravano sul bilanciamento della distribuzione dei token ma trascuravano la variabilità delle GPU, portando spesso a posizionare esperti popolari su GPU meno efficienti. GEM considera efficacemente le variazioni di velocità delle GPU per ottimizzare la mappatura degli esperti, minimizzando così gli effetti degli straggler. La ricerca è disponibile su arXiv (2605.19945).
Fatti principali
- GEM sta per GPU-variability-aware Expert Mapping.
- Si rivolge ai modelli Mixture-of-Expert (MoE).
- I modelli MoE attivano un sottoinsieme di esperti per token.
- La barriera di sincronizzazione fa sì che le GPU straggler limitino le prestazioni.
- Gli straggler derivano da un posizionamento squilibrato degli esperti e dalla variabilità delle GPU.
- I lavori precedenti ignoravano la variabilità delle GPU.
- GEM mappa gli esperti considerando le differenze di velocità delle GPU.
- L'articolo è disponibile su arXiv con ID 2605.19945.
Entità
Istituzioni
- arXiv