AGORA: Compressione dei Prompt Senza Inferenza per Agenti LLM
AGORA, acronimo di Adapter-Grounded Observation-Action Retention, è un nuovo metodo che consente la compressione dei prompt senza perdere il contesto importante per gli agenti LLM. A differenza dei compressori tradizionali a livello di token, che spesso rompono la grammatica delle azioni, AGORA opera a livello di step. In test con 17 diverse combinazioni ambiente-backbone-metodo, i metodi a livello di token hanno ottenuto un reward medio di 0,05 o inferiore, nonostante compressioni tra 1,3 e 13,3 volte. AGORA utilizza un parser strutturale dei prompt e uno scorer di rilevanza con 125 milioni di parametri, addestrato su etichette specifiche, per mantenere oltre il 75% delle prestazioni originali in 8 su 9 scenari. Un'analisi a quattro vie ha mostrato che il floor strutturale è cruciale per la qualità, mentre lo scorer appreso consente una compressione adattiva significativa.
Fatti principali
- I compressori estrattivi a livello di token falliscono per gli agenti LLM a causa della distruzione della grammatica delle azioni
- In 17 celle, i metodi a livello di token ottengono un reward medio ≤ 0,05 nonostante una compressione di 1,3-13,3x
- AGORA è un compressore a livello di step senza inferenza
- AGORA utilizza un parser strutturale dei prompt, un floor sempre mantenuto e uno scorer di rilevanza con 125 milioni di parametri
- Lo scorer di rilevanza è addestrato su etichette di cambio azione controfattuali
- AGORA funziona a ~2ms per step con zero costo LLM per step
- AGORA mantiene ≥ 75% delle prestazioni non compresse in 8 su 9 celle
- Il floor strutturale è la leva di qualità dominante nello studio di ablazione
- Lo scorer appreso consente una compressione adattiva end-to-end di 1,0-11,5x
- Metodo pubblicato su arXiv sotto Computer Science > Artificial Intelligence
Entità
Istituzioni
- arXiv