ARTFEED — Contemporary Art Intelligence

L'ipotesi del gradiente di valore spiega il successo del RL negli LLM

other · 2026-05-23

Uno studio recente disponibile su arXiv (2605.21654) introduce l'ipotesi del gradiente di valore per chiarire l'efficacia delle tecniche di reinforcement learning senza critica, come PPO e GRPO, nel miglioramento dei modelli linguistici pre-addestrati. I ricercatori dimostrano che, utilizzando un rollout differenziabile insieme a una parametrizzazione con rumore additivo, l'aggiornamento dell'attore nel RL senza critica stima efficacemente un gradiente di valore in aspettativa. Per le politiche transformer discrete, il processo di autodifferenziazione tramite attenzione produce costati empirici che assomigliano molto a questo segnale di valore, con l'errore gestito dal gap di campionamento e dall'entropia della politica. Questa ricerca scompone l'influenza del RL in segnali di gradiente di valore e potenziale di ricompensa raggiungibile, fornendo un quadro per identificare l'applicazione ottimale del RL dopo l'addestramento.

Fatti principali

  • L'articolo è su arXiv con ID 2605.21654
  • Propone l'ipotesi del gradiente di valore per il RL senza critica negli LLM
  • Copre i metodi PPO e GRPO
  • Utilizza rollout differenziabile e parametrizzazione con rumore additivo
  • Mostra che l'aggiornamento dell'attore è simile a un gradiente di valore in aspettativa
  • L'autodifferenziazione tramite attenzione produce costati empirici
  • L'errore nei costati è controllato dal gap di campionamento e dall'entropia della politica
  • Scompone l'impatto del RL in segnale di gradiente di valore e margine di ricompensa raggiungibile

Entità

Istituzioni

  • arXiv

Fonti