ARTFEED — Contemporary Art Intelligence

La pipeline standard SFT-then-RL supera i metodi a policy mista dopo la correzione di bug

ai-technology · 2026-04-29

Un recente preprint su arXiv indica che le più recenti tecniche di ottimizzazione a policy mista per il ragionamento dei LLM, che combinano segnali di apprendimento supervisionato e per rinforzo, si basano su baseline errate a causa di due bug identificati. Il primo problema riguarda un bug nell'ottimizzatore CPU-offloaded di DeepSpeed che omette involontariamente micro-batch intermedi durante l'accumulo del gradiente, influenzando strumenti come TRL, OpenRLHF e Llama-Factory. Il secondo problema riguarda un errore di aggregazione delle perdite in OpenRLHF che calcola erroneamente la ponderazione delle perdite per mini-batch. Questi problemi ostacolano le prestazioni di SFT, con il bug dell'ottimizzatore che è il principale responsabile della discrepanza. Una volta corretti, la pipeline convenzionale SFT-then-RL supera tutti i metodi a policy mista di +3,8 punti sui benchmark matematici con Qwen2.5-Math-7B e di +22,2 punti con LLaMA, mettendo in discussione i presunti vantaggi delle strategie a policy mista.

Fatti principali

  • I metodi di ottimizzazione a policy mista per il ragionamento dei LLM si basano su baseline errate
  • Identificati due bug: bug dell'ottimizzatore DeepSpeed e bug di aggregazione delle perdite in OpenRLHF
  • Il bug di DeepSpeed elimina silenziosamente micro-batch intermedi durante l'accumulo del gradiente
  • Il bug influisce sui framework TRL, OpenRLHF e Llama-Factory
  • Il bug di OpenRLHF pondera erroneamente le perdite per mini-batch
  • La pipeline SFT-then-RL corretta supera i metodi a policy mista di +3,8 punti sui benchmark matematici con Qwen2.5-Math-7B
  • La pipeline corretta supera di +22,2 punti con LLaMA
  • Risultati pubblicati su arXiv (2604.23747)

Entità

Istituzioni

  • DeepSpeed
  • TRL
  • OpenRLHF
  • Llama-Factory
  • arXiv

Fonti