vLLM V1 corrisponde a V0 dopo la correzione di logprobs, impostazioni predefinite e precisione

other · 2026-05-06

Gli ingegneri AI di ServiceNow hanno risolto quattro problemi di backend per far sì che vLLM V1 corrispondesse a V0 nell'addestramento RL online: logprobs di rollout elaborati, impostazioni predefinite runtime specifiche di V1, percorso di aggiornamento dei pesi in volo e lm_head in fp32. La migrazione mirava alla parità del backend prima di qualsiasi modifica agli obiettivi RL. L'esecuzione di riferimento utilizzava vLLM 0.8.5; le esecuzioni V1 utilizzavano vLLM 0.18.1. I tentativi iniziali con V1 mostravano divergenze nel tasso di clip, KL, entropia e ricompensa. Le correzioni includevano l'impostazione di logprobs-mode=processed_logprobs, la disabilitazione della cache dei prefissi, l'abbinamento della modalità di aggiornamento in volo con clear_cache=False e l'abilitazione di lm_head in fp32. Dopo le correzioni, l'esecuzione finale di V1 ha seguito il riferimento V0 in tutte le metriche. Il team ha sottolineato l'importanza di correggere la correttezza del backend prima di aggiungere correzioni lato obiettivo come il campionamento per importanza troncato.

Fatti principali

vLLM V1 è una riscrittura sostanziale del motore V0.
Sono state necessarie quattro correzioni: logprobs di rollout elaborati, impostazioni predefinite runtime specifiche di V1, percorso di aggiornamento dei pesi in volo e lm_head in fp32.
L'esecuzione di riferimento utilizzava vLLM 0.8.5; le esecuzioni V1 utilizzavano vLLM 0.18.1.
L'esecuzione iniziale di V1 mostrava divergenze nel tasso di clip, KL, entropia e ricompensa.
L'impostazione di logprobs-mode=processed_logprobs ha risolto il bug semantico dei logprobs.
La disabilitazione della cache dei prefissi ha rimosso un grado di libertà specifico di V1.
L'aggiornamento dei pesi in volo utilizzava mode='keep' e clear_cache=False.
lm_head in fp32 era necessario per corrispondere al calcolo dei logit lato trainer.
Il team ha corretto la correttezza del backend prima di aggiungere correzioni lato obiettivo.
La stessa classe di disallineamento può manifestarsi in PPO, GRPO o qualsiasi sistema RL online.

vLLM V1 corrisponde a V0 dopo la correzione di logprobs, impostazioni predefinite e precisione

Fatti principali

Entità

Istituzioni

Fonti