Meta-Soft: Compressione Dinamica della Cache KV per LLM

ai-technology · 2026-05-23

Meta-Soft è un nuovo framework per comprimere la cache key-value (KV) nei modelli linguistici di grandi dimensioni (LLM), affrontando il problema dell'esplosione della memoria e della ridotta efficienza di decodifica durante l'elaborazione di contesti lunghi. A differenza di metodi esistenti come Judge Q, che utilizzano soft token fissi e parametri statici, Meta-Soft adotta un approccio di compressione dinamica basato sull'integrazione del contesto guidata da sonde. Costruisce una meta-libreria con una matrice di base ortogonale apprendibile e utilizza una rete selettrice con Gumbel-Softmax per produrre combinazioni sparse differenziabili. Ciò consente al modello di adattarsi a diversi prompt di input e di catturare con precisione la rilevanza del compito, prevenendo la perdita irreversibile di informazioni dovuta all'espulsione permanente di coppie KV.

Fatti principali

Meta-Soft è un framework di compressione dinamica della cache KV per LLM.
Affronta l'esplosione della memoria e la ridotta efficienza di decodifica in contesti lunghi.
Metodi esistenti come Judge Q utilizzano soft token fissi e parametri statici.
Meta-Soft utilizza un approccio di integrazione del contesto guidato da sonde.
Costruisce una meta-libreria con una matrice di base ortogonale apprendibile.
Una rete selettrice con Gumbel-Softmax produce combinazioni sparse differenziabili.
Il framework si adatta dinamicamente a diversi prompt di input.
Previene la perdita irreversibile di informazioni dall'espulsione permanente di coppie KV.

Meta-Soft: Compressione Dinamica della Cache KV per LLM

Fatti principali

Entità

Istituzioni

Fonti