K-Token Merging: Compressione dello Spazio Latente per LLM
Un nuovo framework chiamato K-Token Merging è stato introdotto dai ricercatori per migliorare l'efficienza dei Large Language Models (LLM) comprimendo lo spazio latente, contribuendo a ridurre le richieste di memoria e computazionali quando si gestiscono prompt lunghi. A differenza dei metodi tradizionali che comprimono nello spazio dei token, K-Token Merging opera nello spazio delle rappresentazioni latenti, consolidando ogni blocco contiguo di K embedding di token in uno solo tramite un semplice encoder. La sequenza compressa risultante viene quindi utilizzata da un LLM adattato con LoRA, mentre l'output mantiene il vocabolario originale. I test su ragionamento strutturale (Textualized Tree), analisi del sentiment (Amazon Reviews) e modifica del codice (CommitPackFT) indicano che K-Token Merging raggiunge fino a 4x di compressione con una perdita di prestazioni minima, posizionandosi sulla frontiera di Pareto. La ricerca è accessibile su arXiv.
Fatti principali
- K-Token Merging comprime gli embedding dei token nello spazio latente.
- Unisce blocchi contigui di K embedding in uno solo tramite un encoder leggero.
- La sequenza compressa viene elaborata da un LLM adattato con LoRA.
- La generazione rimane nel vocabolario originale.
- Esperimenti su Textualized Tree, Amazon Reviews e CommitPackFT.
- Raggiunge fino a 4x di compressione con un degrado minimo delle prestazioni.
- Si trova sulla frontiera di Pareto tra prestazioni e compressione.
- Articolo disponibile su arXiv.
Entità
Istituzioni
- arXiv