HeadQ: Quantizzazione della Cache KV tramite Correzione della Distorsione Visibile al Modello

other · 2026-05-07

Una tecnica innovativa chiamata HeadQ migliora la quantizzazione della cache KV valutando l'errore in coordinate visibili al modello invece di concentrarsi sulla ricostruzione dello spazio di archiviazione. Per le chiavi, HeadQ incorpora un codice laterale residuo a basso rango in una base di query appresa tramite calibrazione, utilizzandolo come regolazione additiva dei logit. Per i valori, impiega un surrogato di distorsione dei token pesato A². La ricerca condotta su sei modelli indica che l'errore nello spazio di Fisher/score è un predittore più accurato della divergenza KL dell'attenzione rispetto all'MSE grezzo delle chiavi. L'affidabilità del metodo è confermata attraverso controesempi con lo stesso budget, interventi nello spazio nullo, controlli PCA delle query e test HeadQ con segno errato. Esperimenti con decodifica densa della cache KV su WikiText-103 convalidano ulteriormente l'efficacia del metodo.

Fatti principali

HeadQ è un metodo lato chiavi per la quantizzazione della cache KV.
Utilizza un codice laterale residuo a basso rango in una base di query appresa tramite calibrazione.
Il metodo applica una correzione additiva dei logit per le chiavi.
Per i valori, impiega un surrogato di distorsione dei token pesato A².
Gli esperimenti sono stati condotti su sei modelli.
L'errore nello spazio di Fisher/score predice la divergenza KL dell'attenzione meglio dell'MSE grezzo delle chiavi.
La validazione include controesempi con lo stesso budget e interventi nello spazio nullo.
Checkpoint Pythia abbinati identificano un'anomalia di confine di inversione del percorso.
Esperimenti di decodifica densa sono stati eseguiti su WikiText-103.

Entità

—

Fonti

arXiv cs.AI — 2026-05-06