ARTFEED — Contemporary Art Intelligence

Scomposizione dell'errore di quantizzazione MXFP4 per l'apprendimento per rinforzo degli LLM

ai-technology · 2026-05-22

Un recente articolo su arXiv (2605.20402) dimostra che l'errore di quantizzazione di MXFP4 nell'apprendimento per rinforzo per modelli linguistici di grandi dimensioni (LLM) può essere scomposto in tre componenti separate: bias di scala dovuto all'arrotondamento a potenze di due, troncamento della zona morta dall'eliminazione di valori piccoli e rumore di griglia dall'arrotondamento a una griglia a 4 bit. Ciascuna di queste componenti porta a modalità di fallimento specifiche: il bias di scala cresce moltiplicativamente durante il passaggio all'indietro, il troncamento della zona morta riduce la qualità dei rollout e il rumore di griglia influenza la stabilità dell'addestramento. Questa analisi indica che gli approcci attuali che considerano l'errore di quantizzazione come un'entità singola trascurano questi meccanismi distinti, fornendo approfondimenti sia teorici che empirici sui loro effetti su vari percorsi di addestramento RL.

Fatti principali

  • Articolo arXiv 2605.20402
  • L'aritmetica MXFP4 accelera il post-addestramento RL degli LLM
  • Errore di quantizzazione scomposto in tre componenti additive
  • Bias di scala dall'arrotondamento a potenze di due
  • Troncamento della zona morta azzerando valori piccoli
  • Rumore di griglia dall'arrotondamento alla griglia a 4 bit più vicina
  • Il bias di scala influisce sull'accuratezza del gradiente tramite il passaggio all'indietro
  • Il troncamento della zona morta degrada la qualità del rollout

Entità

Istituzioni

  • arXiv

Fonti