ARTFEED — Contemporary Art Intelligence

POISE: RLVR efficiente per LLM utilizzando la stima del valore dello stato interno

ai-technology · 2026-05-11

Un nuovo metodo di apprendimento per rinforzo chiamato Policy Optimization with Internal State Value Estimation (POISE) riduce il costo computazionale dell'addestramento di grandi modelli di ragionamento. A differenza di PPO, che richiede un modello critico separato, o di GRPO, che necessita di più rollout per prompt, POISE utilizza i segnali interni del modello politico stesso — stati nascosti e statistiche di entropia dei token — per prevedere le ricompense verificabili attese. Un probe leggero addestrato online stima questi valori, e una costruzione cross-rollout preserva l'assenza di bias del gradiente. L'approccio promette una riduzione della varianza a un costo aggiuntivo trascurabile.

Fatti principali

  • POISE sta per Policy Optimization with Internal State Value Estimation
  • Utilizza i segnali interni del modello politico per la stima della baseline
  • Evita la necessità di un critico della stessa scala del modello politico come PPO
  • Evita più rollout per prompt come GRPO
  • Un probe leggero prevede la ricompensa verificabile attesa dagli stati nascosti e dalle statistiche di entropia dei token
  • La costruzione cross-rollout garantisce l'assenza di bias del gradiente
  • Il metodo è progettato per l'apprendimento per rinforzo con ricompense verificabili (RLVR) per Large Reasoning Models
  • L'articolo è disponibile su arXiv con ID 2605.07579

Entità

Istituzioni

  • arXiv

Fonti