LAWS: Architettura di Cache Auto-Certificante per Inferenza Neurale

ai-technology · 2026-05-07

Un nuovo framework noto come Learning from Actual Workloads Symbolically (LAWS) è stato sviluppato per la cache di inferenza auto-certificante. Questo sistema innovativo accumula funzioni esperte utilizzando informazioni di distribuzione reali, con ciascuna funzione corrispondente a una specifica area dello spazio di input, mappata come nodi in un Probabilistic Language Trie (PLT). LAWS presenta un teorema di auto-certificazione, garantendo che gli errori di approssimazione rimangano entro limiti definiti. Utilizza inoltre Mixture-of-Experts e KV prefix caching, consentendo una maggiore adattabilità rispetto alle configurazioni tradizionali. Inoltre, il framework presenta una base teorica riguardante i tassi di hit monotoni, contribuendo alla sua efficienza e prestazioni complessive.

Fatti principali

LAWS sta per Learning from Actual Workloads Symbolically.
È un'architettura di cache di inferenza auto-certificante.
Ogni esperto copre una regione definita da un nodo nel Probabilistic Language Trie (PLT).
Il teorema di auto-certificazione limita l'errore a epsilon_fit + 2*Lambda(W)*C_E.
Lambda(W) è la costante di Lipschitz del modello.
C_E è il diametro massimo dell'embedding.
LAWS generalizza Mixture-of-Experts e KV prefix caching.
È strettamente più espressivo di qualsiasi MoE a K fisso o cache finita.

LAWS: Architettura di Cache Auto-Certificante per Inferenza Neurale

Fatti principali

Entità

Istituzioni

Fonti