ARTFEED — Contemporary Art Intelligence

Doppi Decodificatori a Blocchi: Una Nuova Architettura Transformer

ai-technology · 2026-05-20

I ricercatori propongono i doppi decodificatori a blocchi, una nuova architettura transformer che utilizza maschere di attenzione a blocchi doppiamente causali. Questo design combina l'efficienza dell'addestramento dei soli decodificatori con l'efficienza dell'inferenza dei modelli encoder-decoder, affrontando i problemi di supervisione sparsa e lunghezza dinamica delle sequenze nei modelli encoder-decoder. Esperimenti sulle leggi di scala mostrano che i doppi decodificatori a blocchi superano i modelli encoder-decoder e seguono da vicino i modelli solo decodificatori. Durante l'inferenza, riducono la memoria KV-cache e il calcolo per token di almeno due terzi, senza sacrificare la cache di prefill o altre ottimizzazioni.

Fatti principali

  • I doppi decodificatori a blocchi utilizzano maschere di attenzione a blocchi doppiamente causali.
  • L'architettura combina l'efficienza dell'addestramento dei soli decodificatori con l'efficienza dell'inferenza dei modelli encoder-decoder.
  • Affronta i problemi di supervisione sparsa e lunghezza dinamica delle sequenze nei modelli encoder-decoder.
  • Esperimenti sulle leggi di scala mostrano prestazioni superiori rispetto ai modelli encoder-decoder.
  • I doppi decodificatori a blocchi seguono da vicino i modelli solo decodificatori a tutte le scale.
  • La memoria KV-cache e il calcolo per token durante l'inferenza sono ridotti di almeno 2/3.
  • Le ottimizzazioni esistenti per l'inferenza dei modelli solo decodificatori sono preservate.
  • L'articolo è stato sottomesso ad arXiv sotto Computer Science > Machine Learning.

Entità

Istituzioni

  • arXiv

Fonti