DTop-p MoE: Routing dinamico Top-p per il pre-addestramento di modelli foundation
Un nuovo articolo su arXiv propone DTop-p, un meccanismo di routing dinamico per architetture sparse Mixture-of-Experts (MoE). Il routing standard Top-k utilizza un numero fisso di esperti per token, ignorando la difficoltà del token e le esigenze specifiche del layer. Il routing Top-p seleziona adattivamente gli esperti in base a una soglia di probabilità cumulativa, ma le implementazioni ingenue esistenti con soglie globali fisse offrono guadagni marginali, soffrono di sensibilità agli iperparametri e causano costi incontrollati. DTop-p utilizza un controllore Proporzionale-Integrale per apprendere la soglia di probabilità Top-p per layer, consentendo il controllo della sparsità e la normalizzazione dinamica del routing. Il metodo mira a migliorare l'efficienza e le prestazioni nel pre-addestramento di modelli foundation.
Fatti principali
- 1. DTop-p è un meccanismo di routing dinamico controllabile per la sparsità in MoE.
- 2. Utilizza un controllore Proporzionale-Integrale per apprendere la soglia di probabilità Top-p.
- 3. La normalizzazione dinamica del routing supporta la selezione degli esperti a livello di layer.
- 4. Il routing standard Top-k impone una sparsità rigida che ignora la difficoltà del token.
- 5. Il Top-p ingenuo con soglie globali fisse fornisce guadagni marginali rispetto a Top-k.
- 6. L'articolo è su arXiv con ID 2512.13996.
- 7. Il metodo è mirato al pre-addestramento di modelli foundation.
- 8. DTop-p affronta la sensibilità agli iperparametri e i costi incontrollati.
Entità
Istituzioni
- arXiv