ARTFEED — Contemporary Art Intelligence

Il framework FAR ottimizza l'attenzione dei transformer per acceleratori ReRAM

other · 2026-05-18

Un nuovo framework chiamato FAR (Function-preserving Attention Replacement) è stato introdotto dai ricercatori per sostituire i meccanismi di attenzione nei transformer visivi DeiT pre-addestrati con moduli sequenziali compatibili con dispositivi di calcolo in memoria (IMC). Questo metodo sostituisce l'auto-attenzione con un'architettura LSTM bidirezionale multi-testa tramite distillazione a blocchi, consentendo calcoli in tempo lineare e un efficiente riutilizzo dei pesi. FAR mitiga efficacemente i problemi di latenza e larghezza di banda associati alle moltiplicazioni attivazione-attivazione e all'accesso alla memoria non locale su acceleratori basati su ReRAM. Inoltre, viene utilizzata la potatura strutturata per adattare i modelli a array IMC con risorse limitate, preservando l'integrità funzionale. Le valutazioni condotte sulla famiglia DeiT evidenziano l'efficacia del framework.

Fatti principali

  • FAR sostituisce l'attenzione nei DeiT pre-addestrati con moduli sequenziali per la compatibilità IMC
  • L'auto-attenzione è sostituita da LSTM bidirezionale multi-testa tramite distillazione a blocchi
  • Consente calcoli in tempo lineare e riutilizzo localizzato dei pesi
  • La potatura strutturata permette l'adattamento a array IMC con risorse limitate
  • Valutato sulla famiglia DeiT di transformer visivi
  • Affronta il sovraccarico di latenza e larghezza di banda sugli acceleratori ReRAM
  • Pubblicato su arXiv con ID 2505.21535
  • Tipo di annuncio: replace-cross

Entità

Istituzioni

  • arXiv

Fonti