LaplacianFormer: Attenzione Lineare tramite Kernel Laplaciano per la Visione

ai-technology · 2026-04-24

LaplacianFormer introduce un kernel laplaciano come alternativa teoricamente fondata all'attenzione softmax nei Transformer, affrontando il collo di bottiglia della complessità quadratica per compiti di visione ad alta risoluzione. Il modello impiega una mappa delle caratteristiche iniettiva dimostrabile per preservare interazioni fini tra i token sotto approssimazioni a basso rango, e utilizza l'approssimazione di Nyström con iterazione di Newton–Schulz per il calcolo efficiente della matrice del kernel, evitando costose inversioni di matrice e SVD. Implementazioni CUDA personalizzate sono sviluppate sia per il kernel che per il risolutore. Il lavoro è pubblicato come preprint arXiv 2604.20368.

Fatti principali

LaplacianFormer utilizza un kernel laplaciano per sostituire l'attenzione softmax.
La complessità quadratica dell'attenzione softmax è un ostacolo importante per compiti di visione ad alta risoluzione.
Le varianti esistenti di attenzione lineare spesso usano kernel gaussiani senza fondamento teorico.
Il kernel laplaciano è motivato da osservazioni empiriche e analisi teoriche.
Una mappa delle caratteristiche iniettiva dimostrabile conserva informazioni fini sui token.
L'approssimazione di Nyström della matrice del kernel è utilizzata per un calcolo efficiente.
L'iterazione di Newton–Schulz risolve il sistema senza inversione di matrice o SVD.
Implementazioni CUDA personalizzate sono sviluppate per il kernel e il risolutore.

LaplacianFormer: Attenzione Lineare tramite Kernel Laplaciano per la Visione

Fatti principali

Entità

Istituzioni

Fonti