ARTFEED — Contemporary Art Intelligence

GEM: Mappatura degli Esperti Consapevole della Variabilità delle GPU per Modelli MoE

ai-technology · 2026-05-20

Il framework GEM (GPU-variability-aware Expert Mapping) affronta una sfida significativa nel servire modelli Mixture-of-Expert (MoE). Questi modelli utilizzano esperti più piccoli e attivano solo una parte per ogni token, distribuendoli su varie GPU. Tuttavia, le prestazioni sono ostacolate dalle barriere di sincronizzazione durante l'elaborazione a passo bloccato, dove la GPU più lenta, nota come straggler, determina la velocità complessiva. Gli straggler si verificano quando esperti frequentemente utilizzati vengono assegnati alla stessa GPU o a GPU più lente. Gli approcci precedenti si concentravano sul bilanciamento della distribuzione dei token ma trascuravano la variabilità delle GPU, portando spesso a posizionare esperti popolari su GPU meno efficienti. GEM considera efficacemente le variazioni di velocità delle GPU per ottimizzare la mappatura degli esperti, minimizzando così gli effetti degli straggler. La ricerca è disponibile su arXiv (2605.19945).

Fatti principali

  • GEM sta per GPU-variability-aware Expert Mapping.
  • Si rivolge ai modelli Mixture-of-Expert (MoE).
  • I modelli MoE attivano un sottoinsieme di esperti per token.
  • La barriera di sincronizzazione fa sì che le GPU straggler limitino le prestazioni.
  • Gli straggler derivano da un posizionamento squilibrato degli esperti e dalla variabilità delle GPU.
  • I lavori precedenti ignoravano la variabilità delle GPU.
  • GEM mappa gli esperti considerando le differenze di velocità delle GPU.
  • L'articolo è disponibile su arXiv con ID 2605.19945.

Entità

Istituzioni

  • arXiv

Fonti