Compressione KV Adattiva a Segmentazione di Massa per Ragionamento a Contesto Lungo
L'articolo arXiv 2605.23200 introduce la Compressione KV Adattiva a Segmentazione di Massa (AMS), un metodo per affrontare la crescita lineare della cache Key-Value (KV) nell'inferenza LLM a lungo contesto. Gli autori identificano che i metodi di compressione esistenti basati sulla selezione globale Top-k causano la cancellazione di regioni, dove blocchi di ragionamento contigui vengono gravemente espulsi, interrompendo la coerenza logica. AMS passa dalla competizione a livello di token all'allocazione di quote basata sulle regioni, partizionando adattivamente la cache KV in base alla distribuzione della massa di attenzione, garantendo che i segmenti di ragionamento vitali ricevano memoria assicurata. Un meccanismo di smoothing basato su EMA previene il jitter nei confini dei segmenti durante la decodifica iterativa. AMS è un layer universale plug-and-play ortogonale agli scorer esistenti.
Fatti principali
- L'articolo arXiv 2605.23200 propone la Compressione KV Adattiva a Segmentazione di Massa (AMS)
- Affronta la crescita lineare della cache KV nell'inferenza LLM a lungo contesto
- La selezione Top-k esistente causa la cancellazione di regioni di blocchi di ragionamento contigui
- AMS passa dalla competizione a livello di token all'allocazione di quote basata sulle regioni
- Partiziona la cache KV in base alla distribuzione spaziale della massa di attenzione
- Un meccanismo di smoothing basato su EMA previene il jitter nei confini dei segmenti
- AMS è un layer universale plug-and-play ortogonale agli scorer esistenti
Entità
Istituzioni
- arXiv