ARTFEED — Contemporary Art Intelligence

ZipRL: Compressione Adattiva Multi-Turn con Replay di Risposta Retrospettiva

ai-technology · 2026-05-28

ZipRL è un nuovo framework di compressione adattiva per modelli linguistici di grandi dimensioni (LLM) in attività multi-turno per agenti. Combina la compressione a granularità multipla con il Replay di Risposta Retrospettiva (HRR) per densificare i segnali di addestramento durante l'ottimizzazione tramite Apprendimento per Rinforzo da Ricompense Verificabili (RLVR). L'approccio mira a bilanciare la ritenzione delle informazioni e l'efficienza dei token, superando i metodi di compressione uniforme in termini di utilità rilevante per il compito. Il framework utilizza prompt dal grossolano al fine per la macro-compressione e integra HRR in GRPO tramite vantaggio generalizzato. La ricerca è pubblicata su arXiv (2605.28069v1).

Fatti principali

  • ZipRL è un framework di compressione adattiva per LLM.
  • Si rivolge a attività multi-turno per agenti.
  • Utilizza un meccanismo di compressione a granularità multipla.
  • Incorpora il Replay di Risposta Retrospettiva (HRR).
  • Ottimizzato tramite Apprendimento per Rinforzo da Ricompense Verificabili (RLVR).
  • Dimostrato superiore ai metodi di compressione uniforme.
  • Utilizza prompt dal grossolano al fine per la macro-compressione.
  • Integra HRR in GRPO tramite vantaggio generalizzato.

Entità

Istituzioni

  • arXiv

Fonti