ZipRL: Compressione Adattiva Multi-Turn con Replay di Risposta Retrospettiva
ZipRL è un nuovo framework di compressione adattiva per modelli linguistici di grandi dimensioni (LLM) in attività multi-turno per agenti. Combina la compressione a granularità multipla con il Replay di Risposta Retrospettiva (HRR) per densificare i segnali di addestramento durante l'ottimizzazione tramite Apprendimento per Rinforzo da Ricompense Verificabili (RLVR). L'approccio mira a bilanciare la ritenzione delle informazioni e l'efficienza dei token, superando i metodi di compressione uniforme in termini di utilità rilevante per il compito. Il framework utilizza prompt dal grossolano al fine per la macro-compressione e integra HRR in GRPO tramite vantaggio generalizzato. La ricerca è pubblicata su arXiv (2605.28069v1).
Fatti principali
- ZipRL è un framework di compressione adattiva per LLM.
- Si rivolge a attività multi-turno per agenti.
- Utilizza un meccanismo di compressione a granularità multipla.
- Incorpora il Replay di Risposta Retrospettiva (HRR).
- Ottimizzato tramite Apprendimento per Rinforzo da Ricompense Verificabili (RLVR).
- Dimostrato superiore ai metodi di compressione uniforme.
- Utilizza prompt dal grossolano al fine per la macro-compressione.
- Integra HRR in GRPO tramite vantaggio generalizzato.
Entità
Istituzioni
- arXiv