ARTFEED — Contemporary Art Intelligence

Compressione KV Adattiva a Segmentazione di Massa per Ragionamento a Contesto Lungo

ai-technology · 2026-05-25

L'articolo arXiv 2605.23200 introduce la Compressione KV Adattiva a Segmentazione di Massa (AMS), un metodo per affrontare la crescita lineare della cache Key-Value (KV) nell'inferenza LLM a lungo contesto. Gli autori identificano che i metodi di compressione esistenti basati sulla selezione globale Top-k causano la cancellazione di regioni, dove blocchi di ragionamento contigui vengono gravemente espulsi, interrompendo la coerenza logica. AMS passa dalla competizione a livello di token all'allocazione di quote basata sulle regioni, partizionando adattivamente la cache KV in base alla distribuzione della massa di attenzione, garantendo che i segmenti di ragionamento vitali ricevano memoria assicurata. Un meccanismo di smoothing basato su EMA previene il jitter nei confini dei segmenti durante la decodifica iterativa. AMS è un layer universale plug-and-play ortogonale agli scorer esistenti.

Fatti principali

  • L'articolo arXiv 2605.23200 propone la Compressione KV Adattiva a Segmentazione di Massa (AMS)
  • Affronta la crescita lineare della cache KV nell'inferenza LLM a lungo contesto
  • La selezione Top-k esistente causa la cancellazione di regioni di blocchi di ragionamento contigui
  • AMS passa dalla competizione a livello di token all'allocazione di quote basata sulle regioni
  • Partiziona la cache KV in base alla distribuzione spaziale della massa di attenzione
  • Un meccanismo di smoothing basato su EMA previene il jitter nei confini dei segmenti
  • AMS è un layer universale plug-and-play ortogonale agli scorer esistenti

Entità

Istituzioni

  • arXiv

Fonti