La pipeline standard SFT-then-RL supera i metodi a policy mista dopo la correzione di bug
Un recente preprint su arXiv indica che le più recenti tecniche di ottimizzazione a policy mista per il ragionamento dei LLM, che combinano segnali di apprendimento supervisionato e per rinforzo, si basano su baseline errate a causa di due bug identificati. Il primo problema riguarda un bug nell'ottimizzatore CPU-offloaded di DeepSpeed che omette involontariamente micro-batch intermedi durante l'accumulo del gradiente, influenzando strumenti come TRL, OpenRLHF e Llama-Factory. Il secondo problema riguarda un errore di aggregazione delle perdite in OpenRLHF che calcola erroneamente la ponderazione delle perdite per mini-batch. Questi problemi ostacolano le prestazioni di SFT, con il bug dell'ottimizzatore che è il principale responsabile della discrepanza. Una volta corretti, la pipeline convenzionale SFT-then-RL supera tutti i metodi a policy mista di +3,8 punti sui benchmark matematici con Qwen2.5-Math-7B e di +22,2 punti con LLaMA, mettendo in discussione i presunti vantaggi delle strategie a policy mista.
Fatti principali
- I metodi di ottimizzazione a policy mista per il ragionamento dei LLM si basano su baseline errate
- Identificati due bug: bug dell'ottimizzatore DeepSpeed e bug di aggregazione delle perdite in OpenRLHF
- Il bug di DeepSpeed elimina silenziosamente micro-batch intermedi durante l'accumulo del gradiente
- Il bug influisce sui framework TRL, OpenRLHF e Llama-Factory
- Il bug di OpenRLHF pondera erroneamente le perdite per mini-batch
- La pipeline SFT-then-RL corretta supera i metodi a policy mista di +3,8 punti sui benchmark matematici con Qwen2.5-Math-7B
- La pipeline corretta supera di +22,2 punti con LLaMA
- Risultati pubblicati su arXiv (2604.23747)
Entità
Istituzioni
- DeepSpeed
- TRL
- OpenRLHF
- Llama-Factory
- arXiv