Scomposizione dell'errore di quantizzazione MXFP4 per l'apprendimento per rinforzo degli LLM

ai-technology · 2026-05-22

Un recente articolo su arXiv (2605.20402) dimostra che l'errore di quantizzazione di MXFP4 nell'apprendimento per rinforzo per modelli linguistici di grandi dimensioni (LLM) può essere scomposto in tre componenti separate: bias di scala dovuto all'arrotondamento a potenze di due, troncamento della zona morta dall'eliminazione di valori piccoli e rumore di griglia dall'arrotondamento a una griglia a 4 bit. Ciascuna di queste componenti porta a modalità di fallimento specifiche: il bias di scala cresce moltiplicativamente durante il passaggio all'indietro, il troncamento della zona morta riduce la qualità dei rollout e il rumore di griglia influenza la stabilità dell'addestramento. Questa analisi indica che gli approcci attuali che considerano l'errore di quantizzazione come un'entità singola trascurano questi meccanismi distinti, fornendo approfondimenti sia teorici che empirici sui loro effetti su vari percorsi di addestramento RL.

Fatti principali

Articolo arXiv 2605.20402
L'aritmetica MXFP4 accelera il post-addestramento RL degli LLM
Errore di quantizzazione scomposto in tre componenti additive
Bias di scala dall'arrotondamento a potenze di due
Troncamento della zona morta azzerando valori piccoli
Rumore di griglia dall'arrotondamento alla griglia a 4 bit più vicina
Il bias di scala influisce sull'accuratezza del gradiente tramite il passaggio all'indietro
Il troncamento della zona morta degrada la qualità del rollout

Scomposizione dell'errore di quantizzazione MXFP4 per l'apprendimento per rinforzo degli LLM

Fatti principali

Entità

Istituzioni

Fonti