L'ipotesi del gradiente di valore spiega il successo del RL negli LLM

other · 2026-05-23

Uno studio recente disponibile su arXiv (2605.21654) introduce l'ipotesi del gradiente di valore per chiarire l'efficacia delle tecniche di reinforcement learning senza critica, come PPO e GRPO, nel miglioramento dei modelli linguistici pre-addestrati. I ricercatori dimostrano che, utilizzando un rollout differenziabile insieme a una parametrizzazione con rumore additivo, l'aggiornamento dell'attore nel RL senza critica stima efficacemente un gradiente di valore in aspettativa. Per le politiche transformer discrete, il processo di autodifferenziazione tramite attenzione produce costati empirici che assomigliano molto a questo segnale di valore, con l'errore gestito dal gap di campionamento e dall'entropia della politica. Questa ricerca scompone l'influenza del RL in segnali di gradiente di valore e potenziale di ricompensa raggiungibile, fornendo un quadro per identificare l'applicazione ottimale del RL dopo l'addestramento.

Fatti principali

L'articolo è su arXiv con ID 2605.21654
Propone l'ipotesi del gradiente di valore per il RL senza critica negli LLM
Copre i metodi PPO e GRPO
Utilizza rollout differenziabile e parametrizzazione con rumore additivo
Mostra che l'aggiornamento dell'attore è simile a un gradiente di valore in aspettativa
L'autodifferenziazione tramite attenzione produce costati empirici
L'errore nei costati è controllato dal gap di campionamento e dall'entropia della politica
Scompone l'impatto del RL in segnale di gradiente di valore e margine di ricompensa raggiungibile

L'ipotesi del gradiente di valore spiega il successo del RL negli LLM

Fatti principali

Entità

Istituzioni

Fonti