Disallineamento Training-Inferenza Causa il Collasso del RL negli LLM

ai-technology · 2026-05-16

Un nuovo studio su arXiv (presentato a maggio 2025) identifica il Disallineamento Training-Inferenza (TIM) come una modalità di fallimento critica ma trascurata nell'apprendimento per rinforzo degli LLM. Il TIM si verifica quando le fasi di generazione del rollout e di ottimizzazione della politica producono probabilità token diverse per la stessa sequenza con gli stessi pesi del modello, a causa di differenze implementative. I ricercatori hanno isolato il TIM utilizzando uno strumento diagnostico a zero disallineamento chiamato VeXact, dimostrando che anche piccoli disaccordi numerici a livello di token possono innescare indipendentemente il collasso dell'addestramento. Inoltre, mostrano che il TIM altera il problema di ottimizzazione effettivo e propongono una serie di potenziali rimedi. I risultati ridefiniscono il TIM come una perturbazione di primo livello a livello di sistema piuttosto che un rumore numerico benigno, con implicazioni per la stabilità dei moderni sistemi di RL per LLM.

Fatti principali

TIM sta per Disallineamento Training-Inferenza nell'apprendimento per rinforzo degli LLM.
Le fasi di generazione del rollout e di ottimizzazione della politica dovrebbero produrre probabilità token corrispondenti.
Differenze implementative causano il TIM, portando a valori diversi per la stessa sequenza con gli stessi pesi.
Il TIM è difficile da ispezionare perché è intrecciato con la deriva off-policy e i meccanismi di stabilizzazione.
Lo studio utilizza VeXact, un'impostazione diagnostica a zero disallineamento, per isolare il TIM.
Piccoli disaccordi numerici a livello di token possono causare indipendentemente il collasso dell'addestramento.
Il TIM modifica il problema di ottimizzazione effettivo.
L'articolo identifica una serie di rimedi per mitigare il TIM.

Disallineamento Training-Inferenza Causa il Collasso del RL negli LLM

Fatti principali

Entità

Istituzioni

Fonti