ARTFEED — Contemporary Art Intelligence

Attenzione Lineare Esatta: Un Nuovo Meccanismo per i Transformer

other · 2026-05-20

Uno studio recente introduce l'Attenzione Lineare Esatta (ELA), un metodo innovativo che raggiunge un'efficienza computazionale lineare per l'attenzione dei Transformer sfruttando la decomposizione esatta delle funzioni kernel, eliminando gli errori di approssimazione. Questa innovazione affronta problemi come l'esplosione del gradiente e la diluizione dell'attenzione dei token osservati nei precedenti metodi di attenzione lineare, imponendo vincoli sui kernel che garantiscono non negatività, discriminabilità e un chiaro significato geometrico. I nuovi kernel includono il Kernel Exp di Hadamard, il Kernel della Somma della Distanza Euclidea al Quadrato e il Kernel della Sottrazione della Distanza Euclidea al Quadrato. Inoltre, i miglioramenti includono una struttura Hyper Link che sostituisce le connessioni residue tradizionali per mitigare il degrado del gradiente, insieme a un modulo Memory Lobe che utilizza l'attenzione lineare bidirezionale per tracciare il flusso di trasformazione attraverso i livelli.

Fatti principali

  • L'Attenzione Lineare Esatta raggiunge una complessità computazionale lineare per l'attenzione dei Transformer.
  • Utilizza la decomposizione esatta delle funzioni kernel senza errore di approssimazione.
  • Affronta l'esplosione del gradiente e la diluizione dell'attenzione dei token nei precedenti metodi di attenzione lineare.
  • I vincoli sui kernel garantiscono non negatività, discriminabilità e interpretabilità geometrica.
  • Kernel proposti: Kernel Exp di Hadamard, Kernel della Somma della Distanza Euclidea al Quadrato, Kernel della Sottrazione della Distanza Euclidea al Quadrato.
  • La struttura Hyper Link sostituisce le connessioni residue tradizionali per mitigare il degrado del gradiente.
  • Il modulo Memory Lobe basato sull'attenzione lineare bidirezionale cattura il flusso di trasformazione attraverso i livelli.
  • Articolo pubblicato su arXiv con ID 2605.18848.

Entità

Fonti