FibQuant: Nuovo Quantizzatore Vettoriale per la Compressione della KV-Cache nell'IA
FibQuant è una tecnica innovativa progettata per alleviare i limiti di memoria nell'inferenza IA a lungo contesto comprimendo la cache chiave-valore (KV). Questa cache si espande con la lunghezza del contesto, la dimensione del batch, i livelli e le teste, e viene acceduta durante ogni passo di decodifica, causando notevoli vincoli di traffico di memoria. Gli attuali codec scalari basati su rotazione mantengono una norma, utilizzano una rotazione casuale condivisa e quantizzano una coordinata sequenzialmente, ma perdono informazioni geometriche durante la normalizzazione. Dopo una rotazione di Haar, una sequenza di k coordinate consecutive si trasforma in una sorgente Beta-sferica sulla palla unitaria. FibQuant funge da quantizzatore vettoriale universale a velocità fissa, preservando l'interfaccia normalizza-ruota-memorizza mentre sostituisce le tabelle scalari con un codebook angolare-radiale condiviso adattato a questa sorgente canonica. Questo codebook integra raggi quantili Beta, direzioni quasi uniformi di Fibonacci/Roberts–Kronecker e ottimizzazione Lloyd multi-riavvio. La ricerca è disponibile su arXiv con ID 2605.11478.
Fatti principali
- FibQuant è un quantizzatore vettoriale universale a velocità fissa per la compressione della KV-cache.
- Affronta i problemi di traffico di memoria nell'inferenza IA a lungo contesto.
- La KV-cache cresce con la lunghezza del contesto, la dimensione del batch, i livelli e le teste.
- I codec scalari esistenti basati su rotazione scartano la geometria dalla normalizzazione.
- Dopo una rotazione di Haar, un blocco di k coordinate è una sorgente Beta-sferica.
- FibQuant utilizza un codebook angolare-radiale condiviso adattato a questa sorgente.
- Il codebook combina raggi quantili Beta e direzioni di Fibonacci/Roberts–Kronecker.
- L'articolo è su arXiv con ID 2605.11478.
Entità
Istituzioni
- arXiv