ReMoE: La messa a punto del router aumenta il riutilizzo degli esperti nei MoE LLM con memoria limitata

ai-technology · 2026-05-27

ReMoE funge da framework per la messa a punto dei router, volto a migliorare il riutilizzo degli esperti nei modelli linguistici di grandi dimensioni basati su Mixture-of-Experts (MoE), in particolare durante l'inferenza con memoria limitata. Questi modelli MoE a grana fine attivano un numero limitato di esperti per ogni token, riducendo le richieste computazionali ma richiedendo frequenti accessi a memorie esterne più lente quando gli esperti non sono in cache. Favorendo gli esperti scelti di recente, ReMoE ottiene un routing temporale stabile che completa la località della cache, minimizzando così i recuperi di esperti senza aumentare il calcolo durante l'inferenza. I test condotti sui modelli DeepSeek e Qwen mostrano un aumento del 26% nel riutilizzo degli esperti, mantenendo le prestazioni nei compiti downstream. Le valutazioni in sistemi reali confermano questi vantaggi.

Fatti principali

1. ReMoE è un framework di messa a punto del router per MoE LLM.
2. Aumenta il riutilizzo degli esperti per token in scenari con memoria limitata.
3. Solo un piccolo insieme di esperti può essere memorizzato nella cache; gli altri vengono recuperati da UFS lento.
4. ReMoE orienta il router verso esperti selezionati di recente.
5. Produce un routing temporalmente stabile che si allinea con la località della cache.
6. Esperimenti sui modelli DeepSeek e Qwen mostrano un miglioramento del 26% nel riutilizzo degli esperti.
7. Le prestazioni nei compiti downstream vengono mantenute.
8. Le valutazioni in sistemi reali confermano i benefici.

Entità

—

Fonti

arXiv cs.AI — 2026-05-27