Doppi Decodificatori a Blocchi: Una Nuova Architettura Transformer
I ricercatori propongono i doppi decodificatori a blocchi, una nuova architettura transformer che utilizza maschere di attenzione a blocchi doppiamente causali. Questo design combina l'efficienza dell'addestramento dei soli decodificatori con l'efficienza dell'inferenza dei modelli encoder-decoder, affrontando i problemi di supervisione sparsa e lunghezza dinamica delle sequenze nei modelli encoder-decoder. Esperimenti sulle leggi di scala mostrano che i doppi decodificatori a blocchi superano i modelli encoder-decoder e seguono da vicino i modelli solo decodificatori. Durante l'inferenza, riducono la memoria KV-cache e il calcolo per token di almeno due terzi, senza sacrificare la cache di prefill o altre ottimizzazioni.
Fatti principali
- I doppi decodificatori a blocchi utilizzano maschere di attenzione a blocchi doppiamente causali.
- L'architettura combina l'efficienza dell'addestramento dei soli decodificatori con l'efficienza dell'inferenza dei modelli encoder-decoder.
- Affronta i problemi di supervisione sparsa e lunghezza dinamica delle sequenze nei modelli encoder-decoder.
- Esperimenti sulle leggi di scala mostrano prestazioni superiori rispetto ai modelli encoder-decoder.
- I doppi decodificatori a blocchi seguono da vicino i modelli solo decodificatori a tutte le scale.
- La memoria KV-cache e il calcolo per token durante l'inferenza sono ridotti di almeno 2/3.
- Le ottimizzazioni esistenti per l'inferenza dei modelli solo decodificatori sono preservate.
- L'articolo è stato sottomesso ad arXiv sotto Computer Science > Machine Learning.
Entità
Istituzioni
- arXiv