Il framework AIS corregge il bias di rollout a bassa precisione nel RL per LLM
I ricercatori propongono l'Adaptive Importance Sampling (AIS) per affrontare il disallineamento tra rollout e training nel reinforcement learning per modelli linguistici di grandi dimensioni. I rollout a bassa precisione (es. FP8) abbinati a trainer BF16 migliorano il throughput ma introducono un bias non stazionario che può destabilizzare il training su benchmark di ragionamento. AIS regola la forza di correzione per batch utilizzando tre diagnostiche in tempo reale: affidabilità dei pesi, divergenza e varianza del gradiente. Il framework mira a preservare il beneficio di esplorazione iniziale dei rollout a bassa precisione mitigando il bias successivo. Il lavoro è pubblicato su arXiv con ID 2605.13907.
Fatti principali
- arXiv:2605.13907v1
- I rollout a bassa precisione (FP8) abbinati a trainer BF16 causano un disallineamento rollout-training
- Il disallineamento è non stazionario e agisce come un'arma a doppio taglio
- Training iniziale: bonus di esplorazione stocastico
- Training successivo: bias destabilizzante quando la politica si concentra
- AIS utilizza una regolazione per batch con tre diagnostiche: affidabilità dei pesi, divergenza, varianza del gradiente
- AIS mira a correggere il bias preservando i benefici di esplorazione
- Pubblicato su arXiv
Entità
Istituzioni
- arXiv