ARTFEED — Contemporary Art Intelligence

ActFocus: la riponderazione dei token risolve il collo di bottiglia delle azioni nel RL per LLM

other · 2026-05-16

Un nuovo articolo su arXiv (2605.14558) rivela che, nell'apprendimento per rinforzo agentico per grandi modelli linguistici, l'assegnazione uniforme del credito tra i token distribuisce male i segnali di addestramento. Gli autori dimostrano, da una prospettiva di modellazione basata sull'energia, che i segnali di addestramento a livello di token, misurati dalla correlazione con la varianza della ricompensa tra diverse esecuzioni, si concentrano sui token di azione piuttosto che su quelli di ragionamento, nonostante le azioni costituiscano una piccola frazione della traiettoria. Chiamano questo fenomeno il collo di bottiglia delle azioni. Per affrontarlo, propongono ActFocus, un semplice approccio di riponderazione dei token che riduce il peso dei contributi del gradiente dai token non di azione. Il metodo è progettato per migliorare metodi policy-gradient come PPO e GRPO, concentrando l'apprendimento sui token che contano di più per la ricompensa. L'articolo è una sottomissione incrociata ed è stato annunciato su arXiv.

Fatti principali

  • ID articolo: arXiv:2605.14558
  • Tipo di annuncio: cross
  • Si concentra sull'apprendimento per rinforzo agentico per LLM
  • Identifica il collo di bottiglia delle azioni: i segnali di addestramento si concentrano sui token di azione
  • Propone ActFocus: metodo di riponderazione dei token
  • ActFocus riduce il peso dei gradienti dei token non di azione
  • Mirato a migliorare PPO e GRPO
  • Utilizza una prospettiva di modellazione basata sull'energia

Entità

Istituzioni

  • arXiv

Fonti