Compressione KV Adattiva a Segmentazione di Massa per Ragionamento a Contesto Lungo

ai-technology · 2026-05-25

L'articolo arXiv 2605.23200 introduce la Compressione KV Adattiva a Segmentazione di Massa (AMS), un metodo per affrontare la crescita lineare della cache Key-Value (KV) nell'inferenza LLM a lungo contesto. Gli autori identificano che i metodi di compressione esistenti basati sulla selezione globale Top-k causano la cancellazione di regioni, dove blocchi di ragionamento contigui vengono gravemente espulsi, interrompendo la coerenza logica. AMS passa dalla competizione a livello di token all'allocazione di quote basata sulle regioni, partizionando adattivamente la cache KV in base alla distribuzione della massa di attenzione, garantendo che i segmenti di ragionamento vitali ricevano memoria assicurata. Un meccanismo di smoothing basato su EMA previene il jitter nei confini dei segmenti durante la decodifica iterativa. AMS è un layer universale plug-and-play ortogonale agli scorer esistenti.

Fatti principali

L'articolo arXiv 2605.23200 propone la Compressione KV Adattiva a Segmentazione di Massa (AMS)
Affronta la crescita lineare della cache KV nell'inferenza LLM a lungo contesto
La selezione Top-k esistente causa la cancellazione di regioni di blocchi di ragionamento contigui
AMS passa dalla competizione a livello di token all'allocazione di quote basata sulle regioni
Partiziona la cache KV in base alla distribuzione spaziale della massa di attenzione
Un meccanismo di smoothing basato su EMA previene il jitter nei confini dei segmenti
AMS è un layer universale plug-and-play ortogonale agli scorer esistenti

Compressione KV Adattiva a Segmentazione di Massa per Ragionamento a Contesto Lungo

Fatti principali

Entità

Istituzioni

Fonti