TORQ: Framework senza addestramento per la quantizzazione MXFP4 nei LLM

ai-technology · 2026-05-20

È stato proposto un nuovo framework di quantizzazione post-addestramento senza addestramento chiamato TORQ (Two-level Orthogonal Rotation for MXFP4 Quantization) per affrontare il degrado dell'accuratezza nei modelli linguistici di grandi dimensioni (LLM) che utilizzano il formato Microscaling FP4 (MXFP4). La ricerca, pubblicata come arXiv:2605.19561, identifica due squilibri strutturali nelle distribuzioni di attivazione: uno squilibrio estremo della varianza tra blocchi e uno squilibrio nell'utilizzo del codebook intra-blocco. TORQ rimodella le proprietà geometriche dello spazio di attivazione senza richiedere addestramento aggiuntivo, con l'obiettivo di consentire un'inferenza pratica a bassi bit per i LLM.

Fatti principali

TORQ è un framework di quantizzazione post-addestramento (PTQ) senza addestramento
Affronta il degrado dell'accuratezza della quantizzazione delle attivazioni MXFP4
Due cause principali identificate: squilibrio della varianza tra blocchi e squilibrio nell'utilizzo del codebook intra-blocco
MXFP4 è una pietra miliare per l'inferenza a bassi bit di nuova generazione
Il framework rimodella le proprietà geometriche dello spazio di attivazione
Pubblicato come arXiv:2605.19561
Nessun addestramento aggiuntivo richiesto
Target: modelli linguistici di grandi dimensioni (LLM)

Entità

—

Fonti

arXiv cs.AI — 2026-05-20