Nuovo kernel Metal fuso raggiunge una cache KV int4 più veloce di fp16 su Apple Silicon
Un articolo di ricerca su arXiv (2605.05699) dimostra che la quantizzazione della cache KV può essere invertita sulla memoria unificata di Apple Silicon, ottenendo prestazioni superiori a fp16. Gli autori hanno sviluppato un singolo kernel Metal fuso che combina FFT con randomizzazione del segno, λ per canale, abs-max per gruppo e impacchettamento di nibble int4, esposto come sottoclasse di HuggingFace Cache. Su Gemma-3 1B, è più veloce di fp16 per prefissi da 256 a 4096 token con un miglioramento del -3% al -8% ms/tok, e su Qwen2.5-1.5B a contesto breve (fino a 1K token) con un miglioramento dello -0,7% al -2,6%. Fornisce una compressione della memoria persistente di 3× mantenendo la qualità (ΔPPL = 0,000 per Qwen a prompt breve, +3,6 hook ΔPPL per Gemma). L'overhead del kernel di circa 25 ns/vec è inferiore ai risparmi di larghezza di banda dovuti alla compressione. Inoltre, risolve la catastrofe per token a 4 bit di Qwen (ΔPPL da +7975 a +638,6, una riduzione di 12,5×) a 182 GFLOPS / D=128. I risultati di supporto mostrano che SRFT e SRHT sono statisticamente indistinguibili per la qualità della KV.
Fatti principali
- La quantizzazione della cache KV è invertita sulla memoria unificata di Apple Silicon
- Un singolo kernel Metal fuso è più veloce di fp16 su Gemma-3 1B e Qwen2.5-1.5B
- Il kernel include FFT con randomizzazione del segno, λ per canale, abs-max per gruppo e impacchettamento di nibble int4
- Esposto come sottoclasse di HuggingFace Cache
- Compressione della memoria persistente di 3× con qualità preservata
- ΔPPL = 0,000 per Qwen a prompt breve, +3,6 hook ΔPPL per Gemma
- Risolve la catastrofe per token a 4 bit di Qwen: ΔPPL da +7975 a +638,6
- SRFT e SRHT sono statisticamente indistinguibili per la qualità della KV
Entità
Istituzioni
- arXiv
- Apple
- HuggingFace