Il framework AIS corregge il bias di rollout a bassa precisione nel RL per LLM

ai-technology · 2026-05-16

I ricercatori propongono l'Adaptive Importance Sampling (AIS) per affrontare il disallineamento tra rollout e training nel reinforcement learning per modelli linguistici di grandi dimensioni. I rollout a bassa precisione (es. FP8) abbinati a trainer BF16 migliorano il throughput ma introducono un bias non stazionario che può destabilizzare il training su benchmark di ragionamento. AIS regola la forza di correzione per batch utilizzando tre diagnostiche in tempo reale: affidabilità dei pesi, divergenza e varianza del gradiente. Il framework mira a preservare il beneficio di esplorazione iniziale dei rollout a bassa precisione mitigando il bias successivo. Il lavoro è pubblicato su arXiv con ID 2605.13907.

Fatti principali

arXiv:2605.13907v1
I rollout a bassa precisione (FP8) abbinati a trainer BF16 causano un disallineamento rollout-training
Il disallineamento è non stazionario e agisce come un'arma a doppio taglio
Training iniziale: bonus di esplorazione stocastico
Training successivo: bias destabilizzante quando la politica si concentra
AIS utilizza una regolazione per batch con tre diagnostiche: affidabilità dei pesi, divergenza, varianza del gradiente
AIS mira a correggere il bias preservando i benefici di esplorazione
Pubblicato su arXiv

Il framework AIS corregge il bias di rollout a bassa precisione nel RL per LLM

Fatti principali

Entità

Istituzioni

Fonti