L'acceleratore FPGA TRINE supera RTX 4090 nell'inferenza AI multimodale

ai-technology · 2026-06-01

TRINE è un acceleratore FPGA a singolo bitstream e compilatore progettato per l'inferenza multimodale senza necessità di riconfigurazione. Consolida i layer in formati DDMM/SDDMM/SpMM e li assegna a un motore commutabile, che può passare a runtime tra systolic weight/output-stationary, 1xCS SIMD e un albero di addizione instradabile su un array PE condiviso. Un'unità top-k a due stadi, abbinata in larghezza, facilita il pruning dei token in-stream, mentre lo scaricamento dei layer che considera le dipendenze consente la sovrapposizione di kernel indipendenti tra unità di elaborazione riconfigurabili. Testato su Alveo U50 e ZCU104, TRINE raggiunge riduzioni di latenza fino a 22,57x rispetto a RTX 4090 e 6,86x rispetto a Jetson Orin Nano a 20-21 W; il solo pruning dei token può migliorare le prestazioni fino a 7,8x in pipeline pesanti in ViT.

Fatti principali

TRINE è un acceleratore FPGA a singolo bitstream e compilatore per inferenza multimodale.
Esegue inferenza multimodale end-to-end senza riconfigurazione.
I layer sono unificati come DDMM/SDDMM/SpMM.
Il motore commuta a runtime tra tre modalità: systolic weight/output-stationary, 1xCS SIMD e albero di addizione instradabile.
Un'unità top-k a due stadi abilita il pruning dei token in-stream.
Lo scaricamento dei layer con consapevolezza delle dipendenze (DALO) sovrappone kernel indipendenti.
Valutato su FPGA Alveo U50 e ZCU104.
TRINE riduce la latenza fino a 22,57x rispetto a RTX 4090 e 6,86x rispetto a Jetson Orin Nano a 20-21 W.
Il pruning dei token produce un'accelerazione fino a 7,8x su pipeline pesanti in ViT.

Entità

—

Fonti

arXiv cs.AI — 2026-06-01