Nuova Ricerca sull'IA Propone Metodo di Compressione Sequenziale della Cache KV Utilizzando Trie Probabilistici del Linguaggio
Un recente studio ha introdotto un metodo noto come compressione sequenziale KV, che utilizza un framework a due livelli mirato a migliorare l'efficienza della compressione della cache chiave-valore dei transformer rispetto agli approcci precedenti. Questa nuova tecnica affronta i problemi della compressione per vettore trattando i token della cache KV come elementi del linguaggio formale del modello. Il primo livello impiega la deduplicazione probabilistica dei prefissi per identificare prefissi condivisi simili tra le sessioni, utilizzando una specifica metrica trie. Il secondo livello incorpora la codifica delta predittiva, concentrandosi sulle differenze dei nuovi vettori KV basate sulle previsioni del modello. Questo metodo cerca di superare le prestazioni di tecniche precedenti come TurboQuant. La ricerca è stata pubblicata su arXiv con l'identificatore 2604.15356v1.
Fatti principali
- Il documento introduce la compressione sequenziale KV, un'architettura a due livelli per la compressione della cache chiave-valore dei transformer
- Il primo livello utilizza la deduplicazione probabilistica dei prefissi con la metrica dei Trie Probabilistici del Linguaggio d_T(s, s') = -log_2 P_M(s ^ s')
- Il secondo livello implementa la codifica delta predittiva memorizzando solo i residui dalle previsioni del modello
- Il metodo supera il limite dell'entropia di Shannon per vettore avvicinato da TurboQuant
- Tratta i token della cache KV come campioni del linguaggio formale del modello piuttosto che come dati arbitrari
- Ricerca annunciata su arXiv con identificatore 2604.15356v1
- Il modello funge da predittore quasi ottimale del suo linguaggio formale addestrato
- L'approccio identifica prefissi condivisi semanticamente equivalenti tra le sessioni
Entità
Istituzioni
- arXiv