ZipRL: Adaptive Multi-Turn Context Compression with Hindsight Response Replay

ai-technology · 2026-05-28

ZipRL is a novel adaptive compression framework for Large Language Models (LLMs) in multi-turn agent tasks. It combines multi-granularity compression with Hindsight Response Replay (HRR) to densify training signals during Reinforcement Learning from Verifiable Rewards (RLVR) optimization. The approach aims to balance information retention and token efficiency, outperforming uniform compression methods in task-relevant utility. The framework uses coarse-to-fine prompts for macro-compression and integrates HRR into GRPO via generalized advantage. The research is published on arXiv (2605.28069v1).

Key facts

ZipRL is an adaptive compression framework for LLMs.
It targets multi-turn agent tasks.
Uses multi-granularity compression mechanism.
Incorporates Hindsight Response Replay (HRR).
Optimized via Reinforcement Learning from Verifiable Rewards (RLVR).
Proven superior to uniform compression methods.
Utilizes coarse-to-fine prompts for macro-compression.
Integrates HRR into GRPO via generalized advantage.

ZipRL: Adaptive Multi-Turn Context Compression with Hindsight Response Replay

Key facts

Entities

Institutions

Sources