ARTFEED — Contemporary Art Intelligence

Dense2MoE: Potatura e Riciclo Unificati per LLM Efficienti su Dispositivi

ai-technology · 2026-05-27

I ricercatori propongono Dense2MoE, un framework che combina potatura e riciclo per creare modelli Mixture of Experts (MoE) efficienti per il deployment su dispositivi. Il metodo, chiamato Layer Fusion UpCycling (LF-UC), pota i moduli di attenzione ad alta larghezza di banda da strati ridondanti e riconverte i loro MLP in esperti MoE. Ciò preserva le capacità fondamentali del modello limitando i parametri attivi tramite routing selettivo dei token. Dense2MoE è guidato dalla teoria Roofline hardware per superare il memory wall dell'inferenza. L'approccio affronta il compromesso tra ridondanza dei parametri e accuratezza del modello, ottenendo una migliore frontiera di Pareto per LLM su dispositivi.

Fatti principali

  • Dense2MoE unifica potatura e riciclo per LLM su dispositivi
  • Layer Fusion UpCycling (LF-UC) pota i moduli di attenzione e riconverte i MLP in esperti MoE
  • Guidato dalla teoria Roofline hardware per superare il memory wall dell'inferenza
  • Il routing selettivo dei token limita i parametri attivi
  • Mira a migliorare la frontiera di Pareto per l'efficienza degli LLM su dispositivi

Entità

Fonti