Il framework FAR ottimizza l'attenzione dei transformer per acceleratori ReRAM

other · 2026-05-18

Un nuovo framework chiamato FAR (Function-preserving Attention Replacement) è stato introdotto dai ricercatori per sostituire i meccanismi di attenzione nei transformer visivi DeiT pre-addestrati con moduli sequenziali compatibili con dispositivi di calcolo in memoria (IMC). Questo metodo sostituisce l'auto-attenzione con un'architettura LSTM bidirezionale multi-testa tramite distillazione a blocchi, consentendo calcoli in tempo lineare e un efficiente riutilizzo dei pesi. FAR mitiga efficacemente i problemi di latenza e larghezza di banda associati alle moltiplicazioni attivazione-attivazione e all'accesso alla memoria non locale su acceleratori basati su ReRAM. Inoltre, viene utilizzata la potatura strutturata per adattare i modelli a array IMC con risorse limitate, preservando l'integrità funzionale. Le valutazioni condotte sulla famiglia DeiT evidenziano l'efficacia del framework.

Fatti principali

FAR sostituisce l'attenzione nei DeiT pre-addestrati con moduli sequenziali per la compatibilità IMC
L'auto-attenzione è sostituita da LSTM bidirezionale multi-testa tramite distillazione a blocchi
Consente calcoli in tempo lineare e riutilizzo localizzato dei pesi
La potatura strutturata permette l'adattamento a array IMC con risorse limitate
Valutato sulla famiglia DeiT di transformer visivi
Affronta il sovraccarico di latenza e larghezza di banda sugli acceleratori ReRAM
Pubblicato su arXiv con ID 2505.21535
Tipo di annuncio: replace-cross

Il framework FAR ottimizza l'attenzione dei transformer per acceleratori ReRAM

Fatti principali

Entità

Istituzioni

Fonti