Dense2MoE: Potatura e Riciclo Unificati per LLM Efficienti su Dispositivi

ai-technology · 2026-05-27

I ricercatori propongono Dense2MoE, un framework che combina potatura e riciclo per creare modelli Mixture of Experts (MoE) efficienti per il deployment su dispositivi. Il metodo, chiamato Layer Fusion UpCycling (LF-UC), pota i moduli di attenzione ad alta larghezza di banda da strati ridondanti e riconverte i loro MLP in esperti MoE. Ciò preserva le capacità fondamentali del modello limitando i parametri attivi tramite routing selettivo dei token. Dense2MoE è guidato dalla teoria Roofline hardware per superare il memory wall dell'inferenza. L'approccio affronta il compromesso tra ridondanza dei parametri e accuratezza del modello, ottenendo una migliore frontiera di Pareto per LLM su dispositivi.

Fatti principali

Dense2MoE unifica potatura e riciclo per LLM su dispositivi
Layer Fusion UpCycling (LF-UC) pota i moduli di attenzione e riconverte i MLP in esperti MoE
Guidato dalla teoria Roofline hardware per superare il memory wall dell'inferenza
Il routing selettivo dei token limita i parametri attivi
Mira a migliorare la frontiera di Pareto per l'efficienza degli LLM su dispositivi

Entità

—

Fonti

arXiv cs.AI — 2026-05-27