ARTFEED — Contemporary Art Intelligence

Proiezioni di Query Non Lineari Migliorano le Performance dei Transformer

ai-technology · 2026-04-27

Un'indagine algebrica ha dimostrato che sia nei transformer decoder-only che encoder-only, la matrice di proiezione Query W_Q può essere sostituita con una matrice identità senza influenzare le prestazioni, poiché l'attenzione dipende da X solo attraverso i prodotti XW_Q, XW_K e XW_V. I ricercatori introducono una Q(X) residua non lineare Q(X) = X + f_θ(X), dove f_θ è un MLP a collo di bottiglia con d² + O(d) parametri. I test su modelli simili a GPT-3 small rivelano notevoli miglioramenti: una riduzione del 2,40% nella log-loss di validazione e una diminuzione del 6,81% nella perplexity, superando un modello con il 12,5% di parametri non di embedding aggiuntivi. La componente identità collega la non linearità a un prior consolidato, spingendo a ulteriori esplorazioni su scale più ampie e attraverso varie modalità.

Fatti principali

  • La proiezione Query W_Q può essere impostata come identità senza deterioramento delle prestazioni.
  • L'attenzione dipende da X solo attraverso i prodotti XW_Q, XW_K, XW_V.
  • Le trasformazioni di base possono essere assorbite dai layer adiacenti.
  • Q(X) residua non lineare Q(X) = X + f_θ(X) sostituisce W_Q.
  • f_θ è un MLP a collo di bottiglia con d² + O(d) parametri.
  • Esperimenti su modelli stile GPT-3 small mostrano una log-loss di validazione inferiore del 2,40%.
  • Perplexity ridotta del 6,81%.
  • Supera un modello con il 12,5% di parametri non di embedding aggiuntivi.

Entità

Fonti