DTop-p MoE: Routing dinamico Top-p per il pre-addestramento di modelli foundation

ai-technology · 2026-06-01

Un nuovo articolo su arXiv propone DTop-p, un meccanismo di routing dinamico per architetture sparse Mixture-of-Experts (MoE). Il routing standard Top-k utilizza un numero fisso di esperti per token, ignorando la difficoltà del token e le esigenze specifiche del layer. Il routing Top-p seleziona adattivamente gli esperti in base a una soglia di probabilità cumulativa, ma le implementazioni ingenue esistenti con soglie globali fisse offrono guadagni marginali, soffrono di sensibilità agli iperparametri e causano costi incontrollati. DTop-p utilizza un controllore Proporzionale-Integrale per apprendere la soglia di probabilità Top-p per layer, consentendo il controllo della sparsità e la normalizzazione dinamica del routing. Il metodo mira a migliorare l'efficienza e le prestazioni nel pre-addestramento di modelli foundation.

Fatti principali

1. DTop-p è un meccanismo di routing dinamico controllabile per la sparsità in MoE.
2. Utilizza un controllore Proporzionale-Integrale per apprendere la soglia di probabilità Top-p.
3. La normalizzazione dinamica del routing supporta la selezione degli esperti a livello di layer.
4. Il routing standard Top-k impone una sparsità rigida che ignora la difficoltà del token.
5. Il Top-p ingenuo con soglie globali fisse fornisce guadagni marginali rispetto a Top-k.
6. L'articolo è su arXiv con ID 2512.13996.
7. Il metodo è mirato al pre-addestramento di modelli foundation.
8. DTop-p affronta la sensibilità agli iperparametri e i costi incontrollati.

DTop-p MoE: Routing dinamico Top-p per il pre-addestramento di modelli foundation

Fatti principali

Entità

Istituzioni

Fonti