FASQ: Compressione LLM senza calibrazione tramite quantizzazione del prodotto

ai-technology · 2026-05-07

FASQ (Flexible Accelerated Subspace Quantization) è un framework senza calibrazione per comprimere modelli linguistici di grandi dimensioni (LLM) utilizzando la quantizzazione del prodotto sulle matrici dei pesi. Regolando la dimensione dei sottovettori e la cardinalità del codebook, raggiunge rapporti di compressione continui del 27-49% rispetto alla dimensione originale FP16, colmando le lacune lasciate dai metodi a bit fissi. Su Meta-Llama-3-8B, FASQ supera GPTQ e AWQ a 4 bit con un'accuratezza del 67.1-67.7% a una dimensione del modello del 37-42%, con risultati simili su Qwen3-8B e Qwen3.5-9B-Base. Kernel CUDA personalizzati consentono un'inferenza efficiente tramite GEMV a calcolo diretto senza LUT e design output-stationary.

Fatti principali

1. FASQ applica la quantizzazione del prodotto alle matrici dei pesi degli LLM.
2. Non richiede dati di calibrazione.
3. Due parametri controllano la compressione: dimensione del sottovettore e cardinalità del codebook.
4. L'intervallo di compressione va dal 27% al 49% della dimensione originale del modello FP16.
5. Su Meta-Llama-3-8B, l'accuratezza raggiunge il 67.1-67.7% con una dimensione del modello del 37-42%.
6. Supera GPTQ e AWQ a 4 bit in accuratezza.
7. Risultati consistenti su Qwen3-8B e Qwen3.5-9B-Base.
8. I kernel CUDA personalizzati includono GEMV a calcolo diretto senza LUT e design output-stationary.

FASQ: Compressione LLM senza calibrazione tramite quantizzazione del prodotto

Fatti principali

Entità

Istituzioni

Fonti