RaMP migliora le prestazioni del kernel MoE del 22%
RaMP è un framework di dispatch progettato per l'inferenza Mixture-of-Experts (MoE) che tiene conto del routing, ottenendo un'accelerazione del kernel fino a 1.22x considerando sia la dimensione del batch che la distribuzione del routing degli esperti. I sistemi di produzione attuali si basano tipicamente solo sulla dimensione del batch per il dispatch, con conseguente spreco del 10-70% della produttività del kernel. Utilizzando un'analisi delle regioni di prestazioni basata su costanti hardware, RaMP può prevedere con precisione quando le ottimizzazioni saranno vantaggiose, prevedendo con successo i risultati per tutte e otto le architetture testate, incluse tre non viste in precedenza. Il suo modello di costo a quattro parametri identifica la configurazione più veloce dall'istogramma degli esperti a runtime, mostrando solo lo 0.93% di regret medio rispetto alla ricerca esaustiva, basandosi su soli 10-24 minuti di profilazione iniziale per modello. Questo modello kernel-agnostico si basa esclusivamente sulla geometria della griglia CTA e, applicato ad Alpha-MoE, ottiene un'accelerazione di 1.14x senza richiedere modifiche al codice sorgente. Se combinato con un kernel CuTe DSL co-progettato che offre 134-268 configurazioni polimorfiche, RaMP fornisce un'accelerazione del kernel di 1.22x.
Fatti principali
- RaMP è un framework di dispatch consapevole del routing per l'inferenza MoE.
- I sistemi di produzione effettuano il dispatch basandosi solo sulla dimensione del batch, lasciando inutilizzato il 10-70% della produttività del kernel.
- L'analisi delle regioni di prestazioni deriva da costanti hardware per determinare quando ogni ottimizzazione è utile.
- Ha previsto correttamente tutte le 8 architetture testate, incluse 3 non viste.
- Il modello di costo a quattro parametri seleziona la configurazione più veloce dall'istogramma degli esperti a runtime.
- Raggiunge lo 0.93% di regret medio rispetto alla ricerca esaustiva.
- Addestrato con 10-24 minuti di profilazione una tantum per modello.
- Kernel-agnostico: applicato ad Alpha-MoE offre 1.14x senza modifiche al codice sorgente.
- Il kernel CuTe DSL co-progettato espone 134-268 configurazioni polimorfiche.
- RaMP offre un'accelerazione del kernel di 1.22x.
Entità
—