AGORA: Compressione dei Prompt Senza Inferenza per Agenti LLM

ai-technology · 2026-05-27

AGORA, acronimo di Adapter-Grounded Observation-Action Retention, è un nuovo metodo che consente la compressione dei prompt senza perdere il contesto importante per gli agenti LLM. A differenza dei compressori tradizionali a livello di token, che spesso rompono la grammatica delle azioni, AGORA opera a livello di step. In test con 17 diverse combinazioni ambiente-backbone-metodo, i metodi a livello di token hanno ottenuto un reward medio di 0,05 o inferiore, nonostante compressioni tra 1,3 e 13,3 volte. AGORA utilizza un parser strutturale dei prompt e uno scorer di rilevanza con 125 milioni di parametri, addestrato su etichette specifiche, per mantenere oltre il 75% delle prestazioni originali in 8 su 9 scenari. Un'analisi a quattro vie ha mostrato che il floor strutturale è cruciale per la qualità, mentre lo scorer appreso consente una compressione adattiva significativa.

Fatti principali

I compressori estrattivi a livello di token falliscono per gli agenti LLM a causa della distruzione della grammatica delle azioni
In 17 celle, i metodi a livello di token ottengono un reward medio ≤ 0,05 nonostante una compressione di 1,3-13,3x
AGORA è un compressore a livello di step senza inferenza
AGORA utilizza un parser strutturale dei prompt, un floor sempre mantenuto e uno scorer di rilevanza con 125 milioni di parametri
Lo scorer di rilevanza è addestrato su etichette di cambio azione controfattuali
AGORA funziona a ~2ms per step con zero costo LLM per step
AGORA mantiene ≥ 75% delle prestazioni non compresse in 8 su 9 celle
Il floor strutturale è la leva di qualità dominante nello studio di ablazione
Lo scorer appreso consente una compressione adattiva end-to-end di 1,0-11,5x
Metodo pubblicato su arXiv sotto Computer Science > Artificial Intelligence

AGORA: Compressione dei Prompt Senza Inferenza per Agenti LLM

Fatti principali

Entità

Istituzioni

Fonti