Meta-Soft: Compressione Dinamica della Cache KV per LLM
Meta-Soft è un nuovo framework per comprimere la cache key-value (KV) nei modelli linguistici di grandi dimensioni (LLM), affrontando il problema dell'esplosione della memoria e della ridotta efficienza di decodifica durante l'elaborazione di contesti lunghi. A differenza di metodi esistenti come Judge Q, che utilizzano soft token fissi e parametri statici, Meta-Soft adotta un approccio di compressione dinamica basato sull'integrazione del contesto guidata da sonde. Costruisce una meta-libreria con una matrice di base ortogonale apprendibile e utilizza una rete selettrice con Gumbel-Softmax per produrre combinazioni sparse differenziabili. Ciò consente al modello di adattarsi a diversi prompt di input e di catturare con precisione la rilevanza del compito, prevenendo la perdita irreversibile di informazioni dovuta all'espulsione permanente di coppie KV.
Fatti principali
- Meta-Soft è un framework di compressione dinamica della cache KV per LLM.
- Affronta l'esplosione della memoria e la ridotta efficienza di decodifica in contesti lunghi.
- Metodi esistenti come Judge Q utilizzano soft token fissi e parametri statici.
- Meta-Soft utilizza un approccio di integrazione del contesto guidato da sonde.
- Costruisce una meta-libreria con una matrice di base ortogonale apprendibile.
- Una rete selettrice con Gumbel-Softmax produce combinazioni sparse differenziabili.
- Il framework si adatta dinamicamente a diversi prompt di input.
- Previene la perdita irreversibile di informazioni dall'espulsione permanente di coppie KV.
Entità
Istituzioni
- arXiv