ZipMoE: Servizio Efficiente di MoE su Dispositivi tramite Compressione Senza Perdite e Scheduling Cache-Affinity
ZipMoE è un sistema per servire modelli linguistici di grandi dimensioni basati su Mixture-of-Experts (MoE) su dispositivi edge senza quantizzazione con perdita. Utilizza un co-design di caching e scheduling per spostare l'inferenza da un carico I/O-bound a uno compute-centric, consentendo una parallelizzazione efficiente. Esperimenti su piattaforme edge rappresentative con modelli MoE open-source ne dimostrano l'efficacia.
Fatti principali
- ZipMoE è un sistema di servizio MoE su dispositivo semanticamente senza perdite.
- Sfrutta la sinergia tra l'hardware del dispositivo edge e la ridondanza statistica nei parametri MoE.
- Il design sposta l'inferenza da un flusso di lavoro I/O-bound a uno compute-centric.
- Un prototipo è stato implementato e testato su piattaforme di calcolo edge rappresentative.
- Gli esperimenti hanno utilizzato popolari modelli MoE open-source.
- Il sistema fornisce garanzie di prestazioni dimostrabili.
- Evita la quantizzazione con perdita per preservare il comportamento del modello.
- ZipMoE consente una parallelizzazione efficiente sui dispositivi edge.
Entità
—