ARTFEED — Contemporary Art Intelligence

DARE: Potenziare l'Inferenza dei Modelli Linguistici Diffusivi tramite Riutilizzo delle Attivazioni

ai-technology · 2026-05-12

I ricercatori hanno introdotto DARE (Riutilizzo delle Attivazioni nei Modelli Linguistici Diffusivi), un metodo per accelerare l'inferenza nei modelli linguistici di grandi dimensioni basati su diffusione (dLLM) sfruttando la ridondanza token-wise nell'auto-attenzione. L'approccio comprende due meccanismi: DARE-KV riutilizza le attivazioni chiave-valore memorizzate, mentre DARE-O riutilizza le attivazioni di output, riducendo il calcolo ridondante senza una significativa perdita di qualità. Gli esperimenti mostrano una riduzione della latenza per layer fino a 1,20x e il riutilizzo fino all'87% delle attivazioni di attenzione. Il lavoro affronta l'attuale immaturità dei dLLM open-source rispetto ai modelli auto-regressivi, offrendo potenziale per una generazione parallela più rapida. L'articolo è disponibile su arXiv con identificatore 2605.08134.

Fatti principali

  • DARE è mirato ai modelli linguistici di grandi dimensioni basati su diffusione (dLLM).
  • Sfrutta la ridondanza token-wise nell'auto-attenzione bidirezionale.
  • Due meccanismi: DARE-KV e DARE-O.
  • DARE-KV riutilizza le attivazioni chiave-valore memorizzate.
  • DARE-O riutilizza le attivazioni di output.
  • Raggiunge una riduzione della latenza per layer fino a 1,20x.
  • Riutilizza fino all'87% delle attivazioni di attenzione.
  • Degrado trascurabile sulla qualità.
  • Articolo disponibile su arXiv: 2605.08134.

Entità

Istituzioni

  • arXiv

Fonti