K-Token Merging: Compressione dello Spazio Latente per LLM

ai-technology · 2026-04-24

Un nuovo framework chiamato K-Token Merging è stato introdotto dai ricercatori per migliorare l'efficienza dei Large Language Models (LLM) comprimendo lo spazio latente, contribuendo a ridurre le richieste di memoria e computazionali quando si gestiscono prompt lunghi. A differenza dei metodi tradizionali che comprimono nello spazio dei token, K-Token Merging opera nello spazio delle rappresentazioni latenti, consolidando ogni blocco contiguo di K embedding di token in uno solo tramite un semplice encoder. La sequenza compressa risultante viene quindi utilizzata da un LLM adattato con LoRA, mentre l'output mantiene il vocabolario originale. I test su ragionamento strutturale (Textualized Tree), analisi del sentiment (Amazon Reviews) e modifica del codice (CommitPackFT) indicano che K-Token Merging raggiunge fino a 4x di compressione con una perdita di prestazioni minima, posizionandosi sulla frontiera di Pareto. La ricerca è accessibile su arXiv.

Fatti principali

K-Token Merging comprime gli embedding dei token nello spazio latente.
Unisce blocchi contigui di K embedding in uno solo tramite un encoder leggero.
La sequenza compressa viene elaborata da un LLM adattato con LoRA.
La generazione rimane nel vocabolario originale.
Esperimenti su Textualized Tree, Amazon Reviews e CommitPackFT.
Raggiunge fino a 4x di compressione con un degrado minimo delle prestazioni.
Si trova sulla frontiera di Pareto tra prestazioni e compressione.
Articolo disponibile su arXiv.

K-Token Merging: Compressione dello Spazio Latente per LLM

Fatti principali

Entità

Istituzioni

Fonti