Primo Quadro Teorico per i Trasformatori a Spike Stabilisce Espressività ed Efficienza
È stato introdotto un modello teorico rivoluzionario per i trasformatori a spike, che raggiunge un'accuratezza comparabile a quella dei trasformatori tradizionali migliorando l'efficienza energetica di 38-57 volte su hardware neuromorfico. Lo studio, disponibile su arXiv con l'identificatore 2604.15769v1, presenta la prima teoria espressiva completa per l'auto-attenzione a spike. Dimostra che l'attenzione a spike che utilizza neuroni Leaky Integrate-and-Fire può approssimare universalmente funzioni continue permutazione-equivarianti. Il documento include progetti espliciti di circuiti a spike, con una innovativa rete di inibizione laterale per la normalizzazione softmax che mostra convergenza O(1/√T). Inoltre, stabilisce limiti inferiori stretti sul numero di spike attraverso la teoria rate-distortion, indicando che l'approssimazione ε richiede Ω(L_f² nd/ε²) spike. Significativamente, i limiti dipendenti dall'input sono derivati da dimensioni effettive, che vanno da 47 a 89 per dataset come CIFAR e ImageNet, chiarificando perché T=4 passi temporali sono spesso sufficienti nonostante le aspettative teoriche. Questa ricerca colma un'importante lacuna nel quadro teorico per la creazione di questi modelli di reti neurali energeticamente efficienti.
Fatti principali
- I trasformatori a spike raggiungono un'accuratezza competitiva con i trasformatori convenzionali.
- Offrono un'efficienza energetica 38-57× superiore su hardware neuromorfico.
- Il documento stabilisce la prima teoria espressiva completa per l'auto-attenzione a spike.
- L'attenzione a spike con neuroni Leaky Integrate-and-Fire è un approssimatore universale di funzioni continue permutazione-equivarianti.
- Le costruzioni esplicite di circuiti a spike includono una nuova rete di inibizione laterale per la normalizzazione softmax.
- La convergenza è dimostrata a O(1/√T).
- Limiti inferiori stretti sul numero di spike sono derivati attraverso la teoria rate-distortion.
- Le dimensioni effettive misurate sono 47-89 per i dataset CIFAR/ImageNet.
Entità
Istituzioni
- arXiv