ZipMoE: Servizio Efficiente di MoE su Dispositivi tramite Compressione Senza Perdite e Scheduling Cache-Affinity

ai-technology · 2026-05-25

ZipMoE è un sistema per servire modelli linguistici di grandi dimensioni basati su Mixture-of-Experts (MoE) su dispositivi edge senza quantizzazione con perdita. Utilizza un co-design di caching e scheduling per spostare l'inferenza da un carico I/O-bound a uno compute-centric, consentendo una parallelizzazione efficiente. Esperimenti su piattaforme edge rappresentative con modelli MoE open-source ne dimostrano l'efficacia.

Fatti principali

ZipMoE è un sistema di servizio MoE su dispositivo semanticamente senza perdite.
Sfrutta la sinergia tra l'hardware del dispositivo edge e la ridondanza statistica nei parametri MoE.
Il design sposta l'inferenza da un flusso di lavoro I/O-bound a uno compute-centric.
Un prototipo è stato implementato e testato su piattaforme di calcolo edge rappresentative.
Gli esperimenti hanno utilizzato popolari modelli MoE open-source.
Il sistema fornisce garanzie di prestazioni dimostrabili.
Evita la quantizzazione con perdita per preservare il comportamento del modello.
ZipMoE consente una parallelizzazione efficiente sui dispositivi edge.

Entità

—

Fonti

arXiv cs.AI — 2026-05-25