TORQ: Framework senza addestramento per la quantizzazione MXFP4 nei LLM
È stato proposto un nuovo framework di quantizzazione post-addestramento senza addestramento chiamato TORQ (Two-level Orthogonal Rotation for MXFP4 Quantization) per affrontare il degrado dell'accuratezza nei modelli linguistici di grandi dimensioni (LLM) che utilizzano il formato Microscaling FP4 (MXFP4). La ricerca, pubblicata come arXiv:2605.19561, identifica due squilibri strutturali nelle distribuzioni di attivazione: uno squilibrio estremo della varianza tra blocchi e uno squilibrio nell'utilizzo del codebook intra-blocco. TORQ rimodella le proprietà geometriche dello spazio di attivazione senza richiedere addestramento aggiuntivo, con l'obiettivo di consentire un'inferenza pratica a bassi bit per i LLM.
Fatti principali
- TORQ è un framework di quantizzazione post-addestramento (PTQ) senza addestramento
- Affronta il degrado dell'accuratezza della quantizzazione delle attivazioni MXFP4
- Due cause principali identificate: squilibrio della varianza tra blocchi e squilibrio nell'utilizzo del codebook intra-blocco
- MXFP4 è una pietra miliare per l'inferenza a bassi bit di nuova generazione
- Il framework rimodella le proprietà geometriche dello spazio di attivazione
- Pubblicato come arXiv:2605.19561
- Nessun addestramento aggiuntivo richiesto
- Target: modelli linguistici di grandi dimensioni (LLM)
Entità
—