Il Framework OjaKV Introduce l'Adattamento Online per la Compressione della Cache KV nei Modelli Linguistici di Grande Dimensione

ai-technology · 2026-04-20

Un nuovo framework chiamato OjaKV affronta i colli di bottiglia della memoria nei modelli linguistici di grande dimensione comprimendo la cache chiave-valore necessaria per la generazione autoregressiva. L'approccio combina una politica di archiviazione ibrida con l'adattamento online del sottospazio per superare i limiti dei metodi di compressione statici. OjaKV preserva i primi token e quelli più recenti a rango completo per mantenere ancore ad alta fedeltà per i meccanismi di attenzione. Questa innovazione risponde alle sostanziali esigenze di memoria di modelli come Llama-3.1-8B, che richiede circa 16GB per la sua cache KV quando elabora prompt di 32K token con dimensione del batch 4—superando lo spazio di archiviazione dei pesi del modello stesso. I tradizionali metodi di proiezione a basso rango soffrono di scarse prestazioni sotto cambiamenti nella distribuzione dei dati a causa della loro dipendenza da sottospazi appresi offline. Il framework è stato dettagliato nella preprint arXiv 2509.21623v2, che ha annunciato una sostituzione cross-version. Determinando strategicamente quali token comprimere, OjaKV consente un'elaborazione di contesti lunghi più efficiente mantenendo l'accuratezza del modello.

Fatti principali

OjaKV è un nuovo framework per la compressione della cache chiave-valore nei modelli linguistici di grande dimensione
Utilizza una politica di archiviazione ibrida combinata con l'adattamento online del sottospazio
Il framework preserva i primi token e quelli più recenti a rango completo come ancore di attenzione
Llama-3.1-8B richiede circa 16GB per la cache KV con prompt di 32K token a dimensione del batch 4
Questa dimensione della cache KV supera i requisiti di archiviazione dei pesi del modello stesso
I metodi di compressione esistenti si basano su sottospazi statici appresi offline
I metodi statici hanno prestazioni scarse sotto cambiamenti nella distribuzione dei dati
La ricerca è stata pubblicata come preprint arXiv 2509.21623v2 con annuncio di tipo replace-cross

Entità

—

Fonti

arXiv cs.AI — 2026-04-20