SPEED: Cache KV asimmetrico per strati per un'inferenza efficiente su contesti lunghi in LLM
I ricercatori hanno presentato Shallow Prefill, dEEp Decode (SPEED), una strategia di visibilità KV asimmetrica per fasi, progettata per modelli linguistici decoder-only. A differenza dei metodi precedenti che miravano a ridurre i costi di archiviazione o costruzione degli stati KV dei token di prompt negli strati superiori, SPEED genera stati KV dei token di prompt non ancora durante la fase di Prefill solo negli strati inferiori, escludendo completamente i token di prefill dall'insieme di visibilità Decode degli strati superiori. In uno studio controllato che ha coinvolto Llama-3.1-8B con instruction tuning, SPEED, che ha utilizzato solo il 75% degli strati per i token di prefill, ha registrato un punteggio medio di 51,2 sui benchmark in stile OLMES, leggermente inferiore al 51,4 del baseline a piena profondità, migliorando al contempo il TTFT del 33% e il TPOT di una quantità non divulgata. Questo metodo riduce efficacemente i costi di inferenza su contesti lunghi con un degrado della qualità trascurabile.
Fatti principali
- SPEED è una politica di visibilità KV asimmetrica per fasi per modelli linguistici decoder-only.
- Materializza gli stati KV dei token di prompt non ancora solo negli strati inferiori durante il Prefill.
- I token della fase Decode mantengono la visibilità KV a piena profondità.
- SPEED rimuove i token di prefill dall'insieme di visibilità Decode degli strati superiori.
- Testato su Llama-3.1-8B con instruction tuning.
- Utilizzando il 75% degli strati per i token di prefill, SPEED ha ottenuto un punteggio di 51,2 sui benchmark in stile OLMES.
- Il baseline a piena profondità ha ottenuto un punteggio di 51,4 sugli stessi benchmark.
- SPEED ha migliorato il TTFT del 33%.
Entità
—