Nuova Ricerca sull'IA Propone Metodo di Compressione Sequenziale della Cache KV Utilizzando Trie Probabilistici del Linguaggio

ai-technology · 2026-04-20

Un recente studio ha introdotto un metodo noto come compressione sequenziale KV, che utilizza un framework a due livelli mirato a migliorare l'efficienza della compressione della cache chiave-valore dei transformer rispetto agli approcci precedenti. Questa nuova tecnica affronta i problemi della compressione per vettore trattando i token della cache KV come elementi del linguaggio formale del modello. Il primo livello impiega la deduplicazione probabilistica dei prefissi per identificare prefissi condivisi simili tra le sessioni, utilizzando una specifica metrica trie. Il secondo livello incorpora la codifica delta predittiva, concentrandosi sulle differenze dei nuovi vettori KV basate sulle previsioni del modello. Questo metodo cerca di superare le prestazioni di tecniche precedenti come TurboQuant. La ricerca è stata pubblicata su arXiv con l'identificatore 2604.15356v1.

Fatti principali

Il documento introduce la compressione sequenziale KV, un'architettura a due livelli per la compressione della cache chiave-valore dei transformer
Il primo livello utilizza la deduplicazione probabilistica dei prefissi con la metrica dei Trie Probabilistici del Linguaggio d_T(s, s') = -log_2 P_M(s ^ s')
Il secondo livello implementa la codifica delta predittiva memorizzando solo i residui dalle previsioni del modello
Il metodo supera il limite dell'entropia di Shannon per vettore avvicinato da TurboQuant
Tratta i token della cache KV come campioni del linguaggio formale del modello piuttosto che come dati arbitrari
Ricerca annunciata su arXiv con identificatore 2604.15356v1
Il modello funge da predittore quasi ottimale del suo linguaggio formale addestrato
L'approccio identifica prefissi condivisi semanticamente equivalenti tra le sessioni

Nuova Ricerca sull'IA Propone Metodo di Compressione Sequenziale della Cache KV Utilizzando Trie Probabilistici del Linguaggio

Fatti principali

Entità

Istituzioni

Fonti