Quantizzazione Moltiplicativa di Hurwitz per la Compressione della Cache KV
È stato sviluppato un nuovo metodo per comprimere le cache KV nei modelli linguistici di grandi dimensioni chiamato Quantizzazione Moltiplicativa di Hurwitz (HQMQ). Questo metodo tratta ogni parte di quattro elementi di K o V come un quaternione e utilizza una combinazione di un codebook del gruppo di Hurwitz a 24 elementi e un codebook quaternionico casuale specifico per strato per quantizzare la sua direzione. Questo approccio produce 24S parole di codice effettive pur richiedendo solo S parametri memorizzati. Per affrontare i problemi di outlier comuni nelle architetture moderne, include un processo di estrazione del moltiplicatore mediano per ogni batch, eliminando la necessità di calibrazione. La tecnica è stata valutata su cinque modelli aperti recenti, come Mistral-7B, Llama-3-8B e Qwen.
Fatti principali
- HQMQ è un metodo senza calibrazione per la compressione della cache KV.
- Tratta ogni blocco di 4 elementi di K o V come un quaternione.
- La quantizzazione utilizza il prodotto del gruppo di Hurwitz (24 elementi) e un codebook quaternionico casuale secondario.
- Parole di codice effettive: 24S con S parametri memorizzati.
- Il passo di estrazione degli outlier utilizza C=3, senza calibrazione.
- Valutato su Mistral-7B, Llama-3-8B, Qwen e altri due modelli aperti.
- L'inizializzazione casuale è sufficiente grazie all'isometria S^3.
- I codebook con seed variano la ppl del compito finale di meno dell'1,5%.
Entità
—