Proiezioni di Query Non Lineari Migliorano le Performance dei Transformer
Un'indagine algebrica ha dimostrato che sia nei transformer decoder-only che encoder-only, la matrice di proiezione Query W_Q può essere sostituita con una matrice identità senza influenzare le prestazioni, poiché l'attenzione dipende da X solo attraverso i prodotti XW_Q, XW_K e XW_V. I ricercatori introducono una Q(X) residua non lineare Q(X) = X + f_θ(X), dove f_θ è un MLP a collo di bottiglia con d² + O(d) parametri. I test su modelli simili a GPT-3 small rivelano notevoli miglioramenti: una riduzione del 2,40% nella log-loss di validazione e una diminuzione del 6,81% nella perplexity, superando un modello con il 12,5% di parametri non di embedding aggiuntivi. La componente identità collega la non linearità a un prior consolidato, spingendo a ulteriori esplorazioni su scale più ampie e attraverso varie modalità.
Fatti principali
- La proiezione Query W_Q può essere impostata come identità senza deterioramento delle prestazioni.
- L'attenzione dipende da X solo attraverso i prodotti XW_Q, XW_K, XW_V.
- Le trasformazioni di base possono essere assorbite dai layer adiacenti.
- Q(X) residua non lineare Q(X) = X + f_θ(X) sostituisce W_Q.
- f_θ è un MLP a collo di bottiglia con d² + O(d) parametri.
- Esperimenti su modelli stile GPT-3 small mostrano una log-loss di validazione inferiore del 2,40%.
- Perplexity ridotta del 6,81%.
- Supera un modello con il 12,5% di parametri non di embedding aggiuntivi.
Entità
—