LAWS: Architettura di Cache Auto-Certificante per Inferenza Neurale
Un nuovo framework noto come Learning from Actual Workloads Symbolically (LAWS) è stato sviluppato per la cache di inferenza auto-certificante. Questo sistema innovativo accumula funzioni esperte utilizzando informazioni di distribuzione reali, con ciascuna funzione corrispondente a una specifica area dello spazio di input, mappata come nodi in un Probabilistic Language Trie (PLT). LAWS presenta un teorema di auto-certificazione, garantendo che gli errori di approssimazione rimangano entro limiti definiti. Utilizza inoltre Mixture-of-Experts e KV prefix caching, consentendo una maggiore adattabilità rispetto alle configurazioni tradizionali. Inoltre, il framework presenta una base teorica riguardante i tassi di hit monotoni, contribuendo alla sua efficienza e prestazioni complessive.
Fatti principali
- LAWS sta per Learning from Actual Workloads Symbolically.
- È un'architettura di cache di inferenza auto-certificante.
- Ogni esperto copre una regione definita da un nodo nel Probabilistic Language Trie (PLT).
- Il teorema di auto-certificazione limita l'errore a epsilon_fit + 2*Lambda(W)*C_E.
- Lambda(W) è la costante di Lipschitz del modello.
- C_E è il diametro massimo dell'embedding.
- LAWS generalizza Mixture-of-Experts e KV prefix caching.
- È strettamente più espressivo di qualsiasi MoE a K fisso o cache finita.
Entità
Istituzioni
- arXiv