Moltiplicazione di Matrici Quantizzata con Covarianza per la Quantizzazione dei LLM
Questo articolo, seconda parte di uno studio sulla moltiplicazione di matrici quantizzata (MatMul), affronta il contesto in cui la matrice di covarianza Σ_X delle colonne del secondo fattore è disponibile, come nella quantizzazione post-addestramento solo dei pesi dei LLM. Collega la quantizzazione solo dei pesi alla codifica sorgente con errore quadratico medio pesato (WMSE), la cui soluzione classica di waterfilling determina la distribuzione ottimale del rate tra le coordinate. Gli autori mostrano come il waterfilling possa migliorare algoritmi pratici di quantizzazione dei LLM come GPTQ, che attualmente allocano il rate equamente. Analizzano uno schema recente, WaterSIC, che utilizza quantizzatori INT scalari, e dimostrano che le sue prestazioni ad alto rate sono indipendenti dalla base, caratterizzate dal determinante di Σ_X.
Fatti principali
- Seconda parte del lavoro sulla moltiplicazione di matrici quantizzata
- Considera il contesto con matrice di covarianza Σ_X disponibile
- Si applica alla quantizzazione post-addestramento solo dei pesi dei LLM
- Collega alla codifica sorgente con errore quadratico medio pesato (WMSE)
- La soluzione di waterfilling determina la distribuzione ottimale del rate
- Mostra che il waterfilling può migliorare l'algoritmo GPTQ
- Analizza lo schema WaterSIC che utilizza quantizzatori INT scalari
- Le prestazioni ad alto rate sono indipendenti dalla base, caratterizzate dal determinante di Σ_X
Entità
—