La pipeline standard SFT-then-RL supera i metodi a policy mista dopo la correzione di bug

ai-technology · 2026-04-29

Un recente preprint su arXiv indica che le più recenti tecniche di ottimizzazione a policy mista per il ragionamento dei LLM, che combinano segnali di apprendimento supervisionato e per rinforzo, si basano su baseline errate a causa di due bug identificati. Il primo problema riguarda un bug nell'ottimizzatore CPU-offloaded di DeepSpeed che omette involontariamente micro-batch intermedi durante l'accumulo del gradiente, influenzando strumenti come TRL, OpenRLHF e Llama-Factory. Il secondo problema riguarda un errore di aggregazione delle perdite in OpenRLHF che calcola erroneamente la ponderazione delle perdite per mini-batch. Questi problemi ostacolano le prestazioni di SFT, con il bug dell'ottimizzatore che è il principale responsabile della discrepanza. Una volta corretti, la pipeline convenzionale SFT-then-RL supera tutti i metodi a policy mista di +3,8 punti sui benchmark matematici con Qwen2.5-Math-7B e di +22,2 punti con LLaMA, mettendo in discussione i presunti vantaggi delle strategie a policy mista.

Fatti principali

I metodi di ottimizzazione a policy mista per il ragionamento dei LLM si basano su baseline errate
Identificati due bug: bug dell'ottimizzatore DeepSpeed e bug di aggregazione delle perdite in OpenRLHF
Il bug di DeepSpeed elimina silenziosamente micro-batch intermedi durante l'accumulo del gradiente
Il bug influisce sui framework TRL, OpenRLHF e Llama-Factory
Il bug di OpenRLHF pondera erroneamente le perdite per mini-batch
La pipeline SFT-then-RL corretta supera i metodi a policy mista di +3,8 punti sui benchmark matematici con Qwen2.5-Math-7B
La pipeline corretta supera di +22,2 punti con LLaMA
Risultati pubblicati su arXiv (2604.23747)

Entità

Istituzioni

DeepSpeed
TRL
OpenRLHF
Llama-Factory
arXiv

Fonti

arXiv cs.AI — 2026-04-28