BEAM: Mascheramento Binario dell'Attivazione degli Esperti per un MoE Efficiente
I ricercatori propongono BEAM (Binary Expert Activation Masking), un metodo per migliorare l'efficienza dei Mixture-of-Experts (MoE) nei modelli linguistici di grandi dimensioni. Il MoE standard utilizza un routing Top-K fisso, causando calcoli ridondanti. BEAM apprende una selezione degli esperti adattiva ai token tramite maschere binarie addestrabili, utilizzando uno stimatore straight-through e una funzione di regolarizzazione ausiliaria. Un kernel CUDA personalizzato ed efficiente si integra con il framework di inferenza vLLM. Gli esperimenti mostrano che BEAM mantiene le prestazioni del modello riducendo la latenza di inferenza.
Fatti principali
- 1. BEAM sta per Binary Expert Activation Masking.
- 2. Il metodo affronta l'inefficienza del routing Top-K fisso nei MoE.
- 3. Utilizza maschere binarie addestrabili per la selezione degli esperti adattiva ai token.
- 4. Lo stimatore straight-through e la funzione di regolarizzazione ausiliaria consentono l'addestramento end-to-end.
- 5. Kernel CUDA personalizzato implementato per il framework di inferenza vLLM.
- 6. Mira a ridurre i calcoli ridondanti e la latenza di inferenza.
- 7. Pubblicato su arXiv con ID 2605.14438.
- 8. Gli esperimenti mostrano il mantenimento delle prestazioni ad alta sparsità.
Entità
Istituzioni
- arXiv