FibQuant: Nuovo Quantizzatore Vettoriale per la Compressione della KV-Cache nell'IA

ai-technology · 2026-05-13

FibQuant è una tecnica innovativa progettata per alleviare i limiti di memoria nell'inferenza IA a lungo contesto comprimendo la cache chiave-valore (KV). Questa cache si espande con la lunghezza del contesto, la dimensione del batch, i livelli e le teste, e viene acceduta durante ogni passo di decodifica, causando notevoli vincoli di traffico di memoria. Gli attuali codec scalari basati su rotazione mantengono una norma, utilizzano una rotazione casuale condivisa e quantizzano una coordinata sequenzialmente, ma perdono informazioni geometriche durante la normalizzazione. Dopo una rotazione di Haar, una sequenza di k coordinate consecutive si trasforma in una sorgente Beta-sferica sulla palla unitaria. FibQuant funge da quantizzatore vettoriale universale a velocità fissa, preservando l'interfaccia normalizza-ruota-memorizza mentre sostituisce le tabelle scalari con un codebook angolare-radiale condiviso adattato a questa sorgente canonica. Questo codebook integra raggi quantili Beta, direzioni quasi uniformi di Fibonacci/Roberts–Kronecker e ottimizzazione Lloyd multi-riavvio. La ricerca è disponibile su arXiv con ID 2605.11478.

Fatti principali

FibQuant è un quantizzatore vettoriale universale a velocità fissa per la compressione della KV-cache.
Affronta i problemi di traffico di memoria nell'inferenza IA a lungo contesto.
La KV-cache cresce con la lunghezza del contesto, la dimensione del batch, i livelli e le teste.
I codec scalari esistenti basati su rotazione scartano la geometria dalla normalizzazione.
Dopo una rotazione di Haar, un blocco di k coordinate è una sorgente Beta-sferica.
FibQuant utilizza un codebook angolare-radiale condiviso adattato a questa sorgente.
Il codebook combina raggi quantili Beta e direzioni di Fibonacci/Roberts–Kronecker.
L'articolo è su arXiv con ID 2605.11478.

FibQuant: Nuovo Quantizzatore Vettoriale per la Compressione della KV-Cache nell'IA

Fatti principali

Entità

Istituzioni

Fonti