RetentiveKV: Evizione della Cache KV Guidata dall'Entropia per LLM Multimodali

ai-technology · 2026-05-07

Un nuovo metodo chiamato RetentiveKV affronta i problemi di memoria ed efficienza nei modelli linguistici di grandi dimensioni multimodali riformulando l'evizione della cache KV come un'evoluzione continua della memoria piuttosto che una potatura discreta. L'approccio utilizza l'entropia informazionale per quantificare l'importanza dei token, superando i limiti dell'ipotesi di 'persistenza dell'importanza', che fallisce per i token visivi che mostrano importanza differita e continuità spaziale. RetentiveKV sfrutta i modelli a spazio di stato per mantenere una memoria dinamica del contesto visivo, prevenendo l'evizione prematura di token che diventano critici più avanti nella decodifica. L'articolo è disponibile su arXiv con ID 2605.04075.

Fatti principali

RetentiveKV è un metodo di ottimizzazione della cache KV per LLM multimodali.
Utilizza l'evizione guidata dall'entropia basata su modelli a spazio di stato.
Affronta l'importanza differita dei token visivi.
Sostituisce la potatura discreta con l'evoluzione continua della memoria.
Pubblicato su arXiv con ID 2605.04075.
Il tipo di annuncio è cross.

RetentiveKV: Evizione della Cache KV Guidata dall'Entropia per LLM Multimodali

Fatti principali

Entità

Istituzioni

Fonti