ARTFEED — Contemporary Art Intelligence

ZipMoE: Servizio Efficiente di MoE su Dispositivi tramite Compressione Senza Perdite e Scheduling Cache-Affinity

ai-technology · 2026-05-25

ZipMoE è un sistema per servire modelli linguistici di grandi dimensioni basati su Mixture-of-Experts (MoE) su dispositivi edge senza quantizzazione con perdita. Utilizza un co-design di caching e scheduling per spostare l'inferenza da un carico I/O-bound a uno compute-centric, consentendo una parallelizzazione efficiente. Esperimenti su piattaforme edge rappresentative con modelli MoE open-source ne dimostrano l'efficacia.

Fatti principali

  • ZipMoE è un sistema di servizio MoE su dispositivo semanticamente senza perdite.
  • Sfrutta la sinergia tra l'hardware del dispositivo edge e la ridondanza statistica nei parametri MoE.
  • Il design sposta l'inferenza da un flusso di lavoro I/O-bound a uno compute-centric.
  • Un prototipo è stato implementato e testato su piattaforme di calcolo edge rappresentative.
  • Gli esperimenti hanno utilizzato popolari modelli MoE open-source.
  • Il sistema fornisce garanzie di prestazioni dimostrabili.
  • Evita la quantizzazione con perdita per preservare il comportamento del modello.
  • ZipMoE consente una parallelizzazione efficiente sui dispositivi edge.

Entità

Fonti