ARTFEED — Contemporary Art Intelligence

OCTOPUS: Compressione Ottimizzata della Cache KV tramite Parametrizzazione Ottaedrica

other · 2026-05-22

Una nuova tecnica chiamata OCTOPUS migliora la compressione delle cache key-value (KV) per i transformer durante l'inferenza autoregressiva a lungo contesto. Questo approccio si basa su precedenti codec con precondizionamento rotazionale come TurboQuant e PolarQuant, quantizzando congiuntamente triplette di coordinate ruotate. La direzione di ciascuna tripletta è rappresentata come un quadrato attraverso la parametrizzazione ottaedrica, seguita dalla quantizzazione Lloyd-Max di due coordinate insieme alla norma della tripletta. Questo processo consente un'allocazione non uniforme dei bit che dipende esclusivamente dalla dimensionalità delle chiavi, ottenendo un errore quadratico ottimale. Il codec opera in modo data-oblivious, online e deterministico. I risultati sono disponibili in un articolo su arXiv (2605.21226).

Fatti principali

  • OCTOPUS ottimizza la compressione della cache KV per i transformer.
  • Utilizza la parametrizzazione ottaedrica per mappare le direzioni delle triplette a un quadrato.
  • La quantizzazione Lloyd-Max è applicata a due coordinate e alla norma della tripletta.
  • L'allocazione dei bit è non uniforme e dipende solo dalla dimensionalità delle chiavi.
  • Il codec è data-oblivious, online e deterministico.
  • Si basa sui metodi TurboQuant e PolarQuant.
  • L'articolo è su arXiv con ID 2605.21226.
  • È mirato all'inferenza autoregressiva a lungo contesto.

Entità

Istituzioni

  • arXiv

Fonti