ActFocus: la riponderazione dei token risolve il collo di bottiglia delle azioni nel RL per LLM

other · 2026-05-16

Un nuovo articolo su arXiv (2605.14558) rivela che, nell'apprendimento per rinforzo agentico per grandi modelli linguistici, l'assegnazione uniforme del credito tra i token distribuisce male i segnali di addestramento. Gli autori dimostrano, da una prospettiva di modellazione basata sull'energia, che i segnali di addestramento a livello di token, misurati dalla correlazione con la varianza della ricompensa tra diverse esecuzioni, si concentrano sui token di azione piuttosto che su quelli di ragionamento, nonostante le azioni costituiscano una piccola frazione della traiettoria. Chiamano questo fenomeno il collo di bottiglia delle azioni. Per affrontarlo, propongono ActFocus, un semplice approccio di riponderazione dei token che riduce il peso dei contributi del gradiente dai token non di azione. Il metodo è progettato per migliorare metodi policy-gradient come PPO e GRPO, concentrando l'apprendimento sui token che contano di più per la ricompensa. L'articolo è una sottomissione incrociata ed è stato annunciato su arXiv.

Fatti principali

ID articolo: arXiv:2605.14558
Tipo di annuncio: cross
Si concentra sull'apprendimento per rinforzo agentico per LLM
Identifica il collo di bottiglia delle azioni: i segnali di addestramento si concentrano sui token di azione
Propone ActFocus: metodo di riponderazione dei token
ActFocus riduce il peso dei gradienti dei token non di azione
Mirato a migliorare PPO e GRPO
Utilizza una prospettiva di modellazione basata sull'energia

ActFocus: la riponderazione dei token risolve il collo di bottiglia delle azioni nel RL per LLM

Fatti principali

Entità

Istituzioni

Fonti