XFP: Quantizzatore Dinamico dei Pesi per Inferenza Efficiente di LLM

ai-technology · 2026-05-16

XFP ha introdotto un metodo rivoluzionario di quantizzazione dei pesi per modelli linguistici di grandi dimensioni che ridefinisce le strategie esistenti. Questo approccio elimina la necessità di selezionare manualmente la larghezza di bit e i dati di calibrazione, stabilendo invece metriche di qualità basate sulla similarità coseno per singoli canali. Mantiene criteri rigorosi per l'attenzione e gli esperti condivisi, consentendo al contempo una maggiore flessibilità negli scenari di mixture-of-experts con esperti instradati. La tecnica gestisce in modo indipendente la dimensione del codebook, l'allocazione degli outlier e la disposizione dei layer, utilizzando una configurazione unica che separa le matrici dei pesi in outlier sparsi e indici densi. Durante i test con Qwen3.5-122B-A10B, ha raggiunto un notevole 138 token al secondo, superando Marlin INT4 del 49%.

Fatti principali

1. XFP è un quantizzatore dinamico dei pesi per l'inferenza di LLM.
2. L'operatore specifica soglie di qualità di ricostruzione basate sulla similarità coseno per canale.
3. Soglia rigorosa per attenzione ed esperti condivisi; soglia lasca per MoE con esperti instradati.
4. XFP determina automaticamente la dimensione del codebook, il budget di outlier e l'impacchettamento per layer.
5. Nessuna necessità di Hessian, dati di calibrazione o selezione manuale della larghezza di bit.
6. La matrice dei pesi viene decomposta in un residuo di outlier fp16 sparso e un tensore di indici denso sub-byte.
7. Due modalità di archiviazione: V2 (Lloyd per canale) e V2a (libreria condivisa di L=32 codebook per layer).
8. Su Qwen3.5-122B-A10B, XFP raggiunge 138 tok/s su RTX PRO 6000 Blackwell con TP=2 e 94,49% di corrispondenza esatta GSM8K.

Entità

—

Fonti

arXiv cs.AI — 2026-05-16