Disallineamento Training-Inferenza Causa il Collasso del RL negli LLM
Un nuovo studio su arXiv (presentato a maggio 2025) identifica il Disallineamento Training-Inferenza (TIM) come una modalità di fallimento critica ma trascurata nell'apprendimento per rinforzo degli LLM. Il TIM si verifica quando le fasi di generazione del rollout e di ottimizzazione della politica producono probabilità token diverse per la stessa sequenza con gli stessi pesi del modello, a causa di differenze implementative. I ricercatori hanno isolato il TIM utilizzando uno strumento diagnostico a zero disallineamento chiamato VeXact, dimostrando che anche piccoli disaccordi numerici a livello di token possono innescare indipendentemente il collasso dell'addestramento. Inoltre, mostrano che il TIM altera il problema di ottimizzazione effettivo e propongono una serie di potenziali rimedi. I risultati ridefiniscono il TIM come una perturbazione di primo livello a livello di sistema piuttosto che un rumore numerico benigno, con implicazioni per la stabilità dei moderni sistemi di RL per LLM.
Fatti principali
- TIM sta per Disallineamento Training-Inferenza nell'apprendimento per rinforzo degli LLM.
- Le fasi di generazione del rollout e di ottimizzazione della politica dovrebbero produrre probabilità token corrispondenti.
- Differenze implementative causano il TIM, portando a valori diversi per la stessa sequenza con gli stessi pesi.
- Il TIM è difficile da ispezionare perché è intrecciato con la deriva off-policy e i meccanismi di stabilizzazione.
- Lo studio utilizza VeXact, un'impostazione diagnostica a zero disallineamento, per isolare il TIM.
- Piccoli disaccordi numerici a livello di token possono causare indipendentemente il collasso dell'addestramento.
- Il TIM modifica il problema di ottimizzazione effettivo.
- L'articolo identifica una serie di rimedi per mitigare il TIM.
Entità
Istituzioni
- arXiv