DARE: Potenziare l'Inferenza dei Modelli Linguistici Diffusivi tramite Riutilizzo delle Attivazioni

ai-technology · 2026-05-12

I ricercatori hanno introdotto DARE (Riutilizzo delle Attivazioni nei Modelli Linguistici Diffusivi), un metodo per accelerare l'inferenza nei modelli linguistici di grandi dimensioni basati su diffusione (dLLM) sfruttando la ridondanza token-wise nell'auto-attenzione. L'approccio comprende due meccanismi: DARE-KV riutilizza le attivazioni chiave-valore memorizzate, mentre DARE-O riutilizza le attivazioni di output, riducendo il calcolo ridondante senza una significativa perdita di qualità. Gli esperimenti mostrano una riduzione della latenza per layer fino a 1,20x e il riutilizzo fino all'87% delle attivazioni di attenzione. Il lavoro affronta l'attuale immaturità dei dLLM open-source rispetto ai modelli auto-regressivi, offrendo potenziale per una generazione parallela più rapida. L'articolo è disponibile su arXiv con identificatore 2605.08134.

Fatti principali

DARE è mirato ai modelli linguistici di grandi dimensioni basati su diffusione (dLLM).
Sfrutta la ridondanza token-wise nell'auto-attenzione bidirezionale.
Due meccanismi: DARE-KV e DARE-O.
DARE-KV riutilizza le attivazioni chiave-valore memorizzate.
DARE-O riutilizza le attivazioni di output.
Raggiunge una riduzione della latenza per layer fino a 1,20x.
Riutilizza fino all'87% delle attivazioni di attenzione.
Degrado trascurabile sulla qualità.
Articolo disponibile su arXiv: 2605.08134.

DARE: Potenziare l'Inferenza dei Modelli Linguistici Diffusivi tramite Riutilizzo delle Attivazioni

Fatti principali

Entità

Istituzioni

Fonti