EchoRL: Reinforcement Learning via Rollout Echoing

ai-technology · 2026-06-01

EchoRL introduces a method to address advantage degeneration in reinforcement learning with verifiable rewards (RLVR) for large language models. During post-training, a growing fraction of prompts produce rollouts where all self-generated responses are verified as successful, leading to zero standard deviation in rewards and zero advantage. This causes policy gradients to vanish, capping performance. EchoRL recovers learning signals from these degenerated rollouts by analyzing entropy patterns in golden trajectories from external expert models.

Key facts

RLVR is used for post-training to strengthen reasoning in LLMs
Advantage degeneration occurs when all rollouts for a prompt are verified-success
Degeneration leads to zero standard deviation and zero advantage
Policy gradient vanishes under degenerated advantages
EchoRL is inspired by entropy patterns in golden trajectories from expert models

Entities

—

Sources

arXiv cs.AI — 2026-06-01