PIPO: Unire Compressione Latente e Predizione Multi-Token per un Decodifica LLM Efficiente
I ricercatori hanno introdotto una tecnica innovativa chiamata Pair-In, Pair-Out (PIPO), che integra la compressione latente con la predizione multi-token per ridurre i costi di inferenza associati alla decodifica autoregressiva nei modelli linguistici di grandi dimensioni. In questo approccio, un compressore latente e una testa MTP funzionano come processi complementari: il compressore fonde due token di input in una singola rappresentazione latente, mentre la testa MTP espande uno stato nascosto in un token di output aggiuntivo. Per evitare il costoso passaggio di verifica, PIPO impiega una testa di confidenza leggera che determina l'accettazione dei token bozza. Questo metodo colma efficacemente il divario tra le tecniche lato input e lato output, fornendo una soluzione coesa per migliorare l'efficienza dell'inferenza LLM.
Fatti principali
- 1. PIPO unisce compressione latente e predizione multi-token.
- 2. Il compressore fonde due token di input in una rappresentazione latente.
- 3. La testa MTP espande uno stato nascosto in un token di output aggiuntivo.
- 4. Una testa di confidenza leggera sostituisce il costoso passaggio di verifica.
- 5. Il metodo mira al costo di inferenza della decodifica autoregressiva.
- 6. Proposto nell'articolo arXiv 2605.27255.
- 7. Affronta lo sviluppo indipendente dei metodi lato input e lato output.
- 8. Osservazione On-Po menzionata ma non dettagliata.
Entità
Istituzioni
- arXiv