Doppi Decodificatori a Blocchi: Una Nuova Architettura Transformer

ai-technology · 2026-05-20

I ricercatori propongono i doppi decodificatori a blocchi, una nuova architettura transformer che utilizza maschere di attenzione a blocchi doppiamente causali. Questo design combina l'efficienza dell'addestramento dei soli decodificatori con l'efficienza dell'inferenza dei modelli encoder-decoder, affrontando i problemi di supervisione sparsa e lunghezza dinamica delle sequenze nei modelli encoder-decoder. Esperimenti sulle leggi di scala mostrano che i doppi decodificatori a blocchi superano i modelli encoder-decoder e seguono da vicino i modelli solo decodificatori. Durante l'inferenza, riducono la memoria KV-cache e il calcolo per token di almeno due terzi, senza sacrificare la cache di prefill o altre ottimizzazioni.

Fatti principali

I doppi decodificatori a blocchi utilizzano maschere di attenzione a blocchi doppiamente causali.
L'architettura combina l'efficienza dell'addestramento dei soli decodificatori con l'efficienza dell'inferenza dei modelli encoder-decoder.
Affronta i problemi di supervisione sparsa e lunghezza dinamica delle sequenze nei modelli encoder-decoder.
Esperimenti sulle leggi di scala mostrano prestazioni superiori rispetto ai modelli encoder-decoder.
I doppi decodificatori a blocchi seguono da vicino i modelli solo decodificatori a tutte le scale.
La memoria KV-cache e il calcolo per token durante l'inferenza sono ridotti di almeno 2/3.
Le ottimizzazioni esistenti per l'inferenza dei modelli solo decodificatori sono preservate.
L'articolo è stato sottomesso ad arXiv sotto Computer Science > Machine Learning.

Doppi Decodificatori a Blocchi: Una Nuova Architettura Transformer

Fatti principali

Entità

Istituzioni

Fonti