Moltiplicazione di Matrici Quantizzata con Covarianza per la Quantizzazione dei LLM

other · 2026-05-14

Questo articolo, seconda parte di uno studio sulla moltiplicazione di matrici quantizzata (MatMul), affronta il contesto in cui la matrice di covarianza Σ_X delle colonne del secondo fattore è disponibile, come nella quantizzazione post-addestramento solo dei pesi dei LLM. Collega la quantizzazione solo dei pesi alla codifica sorgente con errore quadratico medio pesato (WMSE), la cui soluzione classica di waterfilling determina la distribuzione ottimale del rate tra le coordinate. Gli autori mostrano come il waterfilling possa migliorare algoritmi pratici di quantizzazione dei LLM come GPTQ, che attualmente allocano il rate equamente. Analizzano uno schema recente, WaterSIC, che utilizza quantizzatori INT scalari, e dimostrano che le sue prestazioni ad alto rate sono indipendenti dalla base, caratterizzate dal determinante di Σ_X.

Fatti principali

Seconda parte del lavoro sulla moltiplicazione di matrici quantizzata
Considera il contesto con matrice di covarianza Σ_X disponibile
Si applica alla quantizzazione post-addestramento solo dei pesi dei LLM
Collega alla codifica sorgente con errore quadratico medio pesato (WMSE)
La soluzione di waterfilling determina la distribuzione ottimale del rate
Mostra che il waterfilling può migliorare l'algoritmo GPTQ
Analizza lo schema WaterSIC che utilizza quantizzatori INT scalari
Le prestazioni ad alto rate sono indipendenti dalla base, caratterizzate dal determinante di Σ_X

Entità

—

Fonti

arXiv cs.AI — 2026-05-14