DARE: Potenziare l'Inferenza dei Modelli Linguistici Diffusivi tramite Riutilizzo delle Attivazioni
I ricercatori hanno introdotto DARE (Riutilizzo delle Attivazioni nei Modelli Linguistici Diffusivi), un metodo per accelerare l'inferenza nei modelli linguistici di grandi dimensioni basati su diffusione (dLLM) sfruttando la ridondanza token-wise nell'auto-attenzione. L'approccio comprende due meccanismi: DARE-KV riutilizza le attivazioni chiave-valore memorizzate, mentre DARE-O riutilizza le attivazioni di output, riducendo il calcolo ridondante senza una significativa perdita di qualità. Gli esperimenti mostrano una riduzione della latenza per layer fino a 1,20x e il riutilizzo fino all'87% delle attivazioni di attenzione. Il lavoro affronta l'attuale immaturità dei dLLM open-source rispetto ai modelli auto-regressivi, offrendo potenziale per una generazione parallela più rapida. L'articolo è disponibile su arXiv con identificatore 2605.08134.
Fatti principali
- DARE è mirato ai modelli linguistici di grandi dimensioni basati su diffusione (dLLM).
- Sfrutta la ridondanza token-wise nell'auto-attenzione bidirezionale.
- Due meccanismi: DARE-KV e DARE-O.
- DARE-KV riutilizza le attivazioni chiave-valore memorizzate.
- DARE-O riutilizza le attivazioni di output.
- Raggiunge una riduzione della latenza per layer fino a 1,20x.
- Riutilizza fino all'87% delle attivazioni di attenzione.
- Degrado trascurabile sulla qualità.
- Articolo disponibile su arXiv: 2605.08134.
Entità
Istituzioni
- arXiv