Proiezioni di Query Non Lineari Migliorano le Performance dei Transformer

ai-technology · 2026-04-27

Un'indagine algebrica ha dimostrato che sia nei transformer decoder-only che encoder-only, la matrice di proiezione Query W_Q può essere sostituita con una matrice identità senza influenzare le prestazioni, poiché l'attenzione dipende da X solo attraverso i prodotti XW_Q, XW_K e XW_V. I ricercatori introducono una Q(X) residua non lineare Q(X) = X + f_θ(X), dove f_θ è un MLP a collo di bottiglia con d² + O(d) parametri. I test su modelli simili a GPT-3 small rivelano notevoli miglioramenti: una riduzione del 2,40% nella log-loss di validazione e una diminuzione del 6,81% nella perplexity, superando un modello con il 12,5% di parametri non di embedding aggiuntivi. La componente identità collega la non linearità a un prior consolidato, spingendo a ulteriori esplorazioni su scale più ampie e attraverso varie modalità.

Fatti principali

La proiezione Query W_Q può essere impostata come identità senza deterioramento delle prestazioni.
L'attenzione dipende da X solo attraverso i prodotti XW_Q, XW_K, XW_V.
Le trasformazioni di base possono essere assorbite dai layer adiacenti.
Q(X) residua non lineare Q(X) = X + f_θ(X) sostituisce W_Q.
f_θ è un MLP a collo di bottiglia con d² + O(d) parametri.
Esperimenti su modelli stile GPT-3 small mostrano una log-loss di validazione inferiore del 2,40%.
Perplexity ridotta del 6,81%.
Supera un modello con il 12,5% di parametri non di embedding aggiuntivi.

Entità

—

Fonti

arXiv cs.AI — 2026-04-27