ARTFEED — Contemporary Art Intelligence

TORQ: Framework senza addestramento per la quantizzazione MXFP4 nei LLM

ai-technology · 2026-05-20

È stato proposto un nuovo framework di quantizzazione post-addestramento senza addestramento chiamato TORQ (Two-level Orthogonal Rotation for MXFP4 Quantization) per affrontare il degrado dell'accuratezza nei modelli linguistici di grandi dimensioni (LLM) che utilizzano il formato Microscaling FP4 (MXFP4). La ricerca, pubblicata come arXiv:2605.19561, identifica due squilibri strutturali nelle distribuzioni di attivazione: uno squilibrio estremo della varianza tra blocchi e uno squilibrio nell'utilizzo del codebook intra-blocco. TORQ rimodella le proprietà geometriche dello spazio di attivazione senza richiedere addestramento aggiuntivo, con l'obiettivo di consentire un'inferenza pratica a bassi bit per i LLM.

Fatti principali

  • TORQ è un framework di quantizzazione post-addestramento (PTQ) senza addestramento
  • Affronta il degrado dell'accuratezza della quantizzazione delle attivazioni MXFP4
  • Due cause principali identificate: squilibrio della varianza tra blocchi e squilibrio nell'utilizzo del codebook intra-blocco
  • MXFP4 è una pietra miliare per l'inferenza a bassi bit di nuova generazione
  • Il framework rimodella le proprietà geometriche dello spazio di attivazione
  • Pubblicato come arXiv:2605.19561
  • Nessun addestramento aggiuntivo richiesto
  • Target: modelli linguistici di grandi dimensioni (LLM)

Entità

Fonti