Nuovo kernel Metal fuso raggiunge una cache KV int4 più veloce di fp16 su Apple Silicon

ai-technology · 2026-05-09

Un articolo di ricerca su arXiv (2605.05699) dimostra che la quantizzazione della cache KV può essere invertita sulla memoria unificata di Apple Silicon, ottenendo prestazioni superiori a fp16. Gli autori hanno sviluppato un singolo kernel Metal fuso che combina FFT con randomizzazione del segno, λ per canale, abs-max per gruppo e impacchettamento di nibble int4, esposto come sottoclasse di HuggingFace Cache. Su Gemma-3 1B, è più veloce di fp16 per prefissi da 256 a 4096 token con un miglioramento del -3% al -8% ms/tok, e su Qwen2.5-1.5B a contesto breve (fino a 1K token) con un miglioramento dello -0,7% al -2,6%. Fornisce una compressione della memoria persistente di 3× mantenendo la qualità (ΔPPL = 0,000 per Qwen a prompt breve, +3,6 hook ΔPPL per Gemma). L'overhead del kernel di circa 25 ns/vec è inferiore ai risparmi di larghezza di banda dovuti alla compressione. Inoltre, risolve la catastrofe per token a 4 bit di Qwen (ΔPPL da +7975 a +638,6, una riduzione di 12,5×) a 182 GFLOPS / D=128. I risultati di supporto mostrano che SRFT e SRHT sono statisticamente indistinguibili per la qualità della KV.

Fatti principali

La quantizzazione della cache KV è invertita sulla memoria unificata di Apple Silicon
Un singolo kernel Metal fuso è più veloce di fp16 su Gemma-3 1B e Qwen2.5-1.5B
Il kernel include FFT con randomizzazione del segno, λ per canale, abs-max per gruppo e impacchettamento di nibble int4
Esposto come sottoclasse di HuggingFace Cache
Compressione della memoria persistente di 3× con qualità preservata
ΔPPL = 0,000 per Qwen a prompt breve, +3,6 hook ΔPPL per Gemma
Risolve la catastrofe per token a 4 bit di Qwen: ΔPPL da +7975 a +638,6
SRFT e SRHT sono statisticamente indistinguibili per la qualità della KV

Nuovo kernel Metal fuso raggiunge una cache KV int4 più veloce di fp16 su Apple Silicon

Fatti principali

Entità

Istituzioni

Fonti