GEM: Mappatura degli Esperti Consapevole della Variabilità delle GPU per Modelli MoE

ai-technology · 2026-05-20

Il framework GEM (GPU-variability-aware Expert Mapping) affronta una sfida significativa nel servire modelli Mixture-of-Expert (MoE). Questi modelli utilizzano esperti più piccoli e attivano solo una parte per ogni token, distribuendoli su varie GPU. Tuttavia, le prestazioni sono ostacolate dalle barriere di sincronizzazione durante l'elaborazione a passo bloccato, dove la GPU più lenta, nota come straggler, determina la velocità complessiva. Gli straggler si verificano quando esperti frequentemente utilizzati vengono assegnati alla stessa GPU o a GPU più lente. Gli approcci precedenti si concentravano sul bilanciamento della distribuzione dei token ma trascuravano la variabilità delle GPU, portando spesso a posizionare esperti popolari su GPU meno efficienti. GEM considera efficacemente le variazioni di velocità delle GPU per ottimizzare la mappatura degli esperti, minimizzando così gli effetti degli straggler. La ricerca è disponibile su arXiv (2605.19945).

Fatti principali

GEM sta per GPU-variability-aware Expert Mapping.
Si rivolge ai modelli Mixture-of-Expert (MoE).
I modelli MoE attivano un sottoinsieme di esperti per token.
La barriera di sincronizzazione fa sì che le GPU straggler limitino le prestazioni.
Gli straggler derivano da un posizionamento squilibrato degli esperti e dalla variabilità delle GPU.
I lavori precedenti ignoravano la variabilità delle GPU.
GEM mappa gli esperti considerando le differenze di velocità delle GPU.
L'articolo è disponibile su arXiv con ID 2605.19945.

GEM: Mappatura degli Esperti Consapevole della Variabilità delle GPU per Modelli MoE

Fatti principali

Entità

Istituzioni

Fonti