ZipRL: Compressione Adattiva Multi-Turn con Replay di Risposta Retrospettiva

ai-technology · 2026-05-28

ZipRL è un nuovo framework di compressione adattiva per modelli linguistici di grandi dimensioni (LLM) in attività multi-turno per agenti. Combina la compressione a granularità multipla con il Replay di Risposta Retrospettiva (HRR) per densificare i segnali di addestramento durante l'ottimizzazione tramite Apprendimento per Rinforzo da Ricompense Verificabili (RLVR). L'approccio mira a bilanciare la ritenzione delle informazioni e l'efficienza dei token, superando i metodi di compressione uniforme in termini di utilità rilevante per il compito. Il framework utilizza prompt dal grossolano al fine per la macro-compressione e integra HRR in GRPO tramite vantaggio generalizzato. La ricerca è pubblicata su arXiv (2605.28069v1).

Fatti principali

ZipRL è un framework di compressione adattiva per LLM.
Si rivolge a attività multi-turno per agenti.
Utilizza un meccanismo di compressione a granularità multipla.
Incorpora il Replay di Risposta Retrospettiva (HRR).
Ottimizzato tramite Apprendimento per Rinforzo da Ricompense Verificabili (RLVR).
Dimostrato superiore ai metodi di compressione uniforme.
Utilizza prompt dal grossolano al fine per la macro-compressione.
Integra HRR in GRPO tramite vantaggio generalizzato.

ZipRL: Compressione Adattiva Multi-Turn con Replay di Risposta Retrospettiva

Fatti principali

Entità

Istituzioni

Fonti