POISE: RLVR efficiente per LLM utilizzando la stima del valore dello stato interno
Un nuovo metodo di apprendimento per rinforzo chiamato Policy Optimization with Internal State Value Estimation (POISE) riduce il costo computazionale dell'addestramento di grandi modelli di ragionamento. A differenza di PPO, che richiede un modello critico separato, o di GRPO, che necessita di più rollout per prompt, POISE utilizza i segnali interni del modello politico stesso — stati nascosti e statistiche di entropia dei token — per prevedere le ricompense verificabili attese. Un probe leggero addestrato online stima questi valori, e una costruzione cross-rollout preserva l'assenza di bias del gradiente. L'approccio promette una riduzione della varianza a un costo aggiuntivo trascurabile.
Fatti principali
- POISE sta per Policy Optimization with Internal State Value Estimation
- Utilizza i segnali interni del modello politico per la stima della baseline
- Evita la necessità di un critico della stessa scala del modello politico come PPO
- Evita più rollout per prompt come GRPO
- Un probe leggero prevede la ricompensa verificabile attesa dagli stati nascosti e dalle statistiche di entropia dei token
- La costruzione cross-rollout garantisce l'assenza di bias del gradiente
- Il metodo è progettato per l'apprendimento per rinforzo con ricompense verificabili (RLVR) per Large Reasoning Models
- L'articolo è disponibile su arXiv con ID 2605.07579
Entità
Istituzioni
- arXiv