FASQ: Compressione LLM senza calibrazione tramite quantizzazione del prodotto
FASQ (Flexible Accelerated Subspace Quantization) è un framework senza calibrazione per comprimere modelli linguistici di grandi dimensioni (LLM) utilizzando la quantizzazione del prodotto sulle matrici dei pesi. Regolando la dimensione dei sottovettori e la cardinalità del codebook, raggiunge rapporti di compressione continui del 27-49% rispetto alla dimensione originale FP16, colmando le lacune lasciate dai metodi a bit fissi. Su Meta-Llama-3-8B, FASQ supera GPTQ e AWQ a 4 bit con un'accuratezza del 67.1-67.7% a una dimensione del modello del 37-42%, con risultati simili su Qwen3-8B e Qwen3.5-9B-Base. Kernel CUDA personalizzati consentono un'inferenza efficiente tramite GEMV a calcolo diretto senza LUT e design output-stationary.
Fatti principali
- 1. FASQ applica la quantizzazione del prodotto alle matrici dei pesi degli LLM.
- 2. Non richiede dati di calibrazione.
- 3. Due parametri controllano la compressione: dimensione del sottovettore e cardinalità del codebook.
- 4. L'intervallo di compressione va dal 27% al 49% della dimensione originale del modello FP16.
- 5. Su Meta-Llama-3-8B, l'accuratezza raggiunge il 67.1-67.7% con una dimensione del modello del 37-42%.
- 6. Supera GPTQ e AWQ a 4 bit in accuratezza.
- 7. Risultati consistenti su Qwen3-8B e Qwen3.5-9B-Base.
- 8. I kernel CUDA personalizzati includono GEMV a calcolo diretto senza LUT e design output-stationary.
Entità
Istituzioni
- arXiv