POISE: RLVR efficiente per LLM utilizzando la stima del valore dello stato interno

ai-technology · 2026-05-11

Un nuovo metodo di apprendimento per rinforzo chiamato Policy Optimization with Internal State Value Estimation (POISE) riduce il costo computazionale dell'addestramento di grandi modelli di ragionamento. A differenza di PPO, che richiede un modello critico separato, o di GRPO, che necessita di più rollout per prompt, POISE utilizza i segnali interni del modello politico stesso — stati nascosti e statistiche di entropia dei token — per prevedere le ricompense verificabili attese. Un probe leggero addestrato online stima questi valori, e una costruzione cross-rollout preserva l'assenza di bias del gradiente. L'approccio promette una riduzione della varianza a un costo aggiuntivo trascurabile.

Fatti principali

POISE sta per Policy Optimization with Internal State Value Estimation
Utilizza i segnali interni del modello politico per la stima della baseline
Evita la necessità di un critico della stessa scala del modello politico come PPO
Evita più rollout per prompt come GRPO
Un probe leggero prevede la ricompensa verificabile attesa dagli stati nascosti e dalle statistiche di entropia dei token
La costruzione cross-rollout garantisce l'assenza di bias del gradiente
Il metodo è progettato per l'apprendimento per rinforzo con ricompense verificabili (RLVR) per Large Reasoning Models
L'articolo è disponibile su arXiv con ID 2605.07579

POISE: RLVR efficiente per LLM utilizzando la stima del valore dello stato interno

Fatti principali

Entità

Istituzioni

Fonti