RetroAttention: Aggiornamento della Cache KV per LLM a Contesto Lungo

ai-technology · 2026-05-22

Una nuova tecnica chiamata RetroAttention è stata introdotta dai ricercatori per migliorare l'efficienza dei modelli linguistici di grandi dimensioni (LLM) nella generazione di contesti lunghi. Questo approccio affronta i limiti di memoria posti dalla cache Key-Value (KV), che aumenta linearmente con la lunghezza della sequenza e influisce significativamente sulla velocità di decodifica. Mentre le attuali tecniche di compressione della cache KV si concentrano sui contesti di input, non affrontano l'accumulo di errori di attenzione durante la decodifica prolungata. RetroAttention rivede le uscite di attenzione precedenti utilizzando nuove voci KV generate dalle fasi di decodifica successive, mantenendo una cache di output leggera che aggiunge una latenza minima. Questa innovazione rompe il modello di attenzione a output fisso, consentendo un'inferenza a contesto lungo più efficace. I risultati sono disponibili su arXiv con ID 2508.09001.

Fatti principali

RetroAttention è una tecnica di aggiornamento della cache KV per LLM.
Affronta i colli di bottiglia di memoria nella generazione di contesti lunghi.
I metodi di compressione esistenti ignorano gli errori di attenzione cumulativi durante la decodifica.
RetroAttention rivede le uscite di attenzione passate con nuove voci KV.
Utilizza una cache di output leggera per l'efficienza.
La tecnica comporta un overhead di latenza minimo.
L'articolo è su arXiv: 2508.09001.
Si rivolge a compiti come ragionamento, generazione di codice e dialogo multi-turno.

RetroAttention: Aggiornamento della Cache KV per LLM a Contesto Lungo

Fatti principali

Entità

Istituzioni

Fonti