Il framework FAR ottimizza l'attenzione dei transformer per acceleratori ReRAM
Un nuovo framework chiamato FAR (Function-preserving Attention Replacement) è stato introdotto dai ricercatori per sostituire i meccanismi di attenzione nei transformer visivi DeiT pre-addestrati con moduli sequenziali compatibili con dispositivi di calcolo in memoria (IMC). Questo metodo sostituisce l'auto-attenzione con un'architettura LSTM bidirezionale multi-testa tramite distillazione a blocchi, consentendo calcoli in tempo lineare e un efficiente riutilizzo dei pesi. FAR mitiga efficacemente i problemi di latenza e larghezza di banda associati alle moltiplicazioni attivazione-attivazione e all'accesso alla memoria non locale su acceleratori basati su ReRAM. Inoltre, viene utilizzata la potatura strutturata per adattare i modelli a array IMC con risorse limitate, preservando l'integrità funzionale. Le valutazioni condotte sulla famiglia DeiT evidenziano l'efficacia del framework.
Fatti principali
- FAR sostituisce l'attenzione nei DeiT pre-addestrati con moduli sequenziali per la compatibilità IMC
- L'auto-attenzione è sostituita da LSTM bidirezionale multi-testa tramite distillazione a blocchi
- Consente calcoli in tempo lineare e riutilizzo localizzato dei pesi
- La potatura strutturata permette l'adattamento a array IMC con risorse limitate
- Valutato sulla famiglia DeiT di transformer visivi
- Affronta il sovraccarico di latenza e larghezza di banda sugli acceleratori ReRAM
- Pubblicato su arXiv con ID 2505.21535
- Tipo di annuncio: replace-cross
Entità
Istituzioni
- arXiv