L'acceleratore FPGA TRINE supera RTX 4090 nell'inferenza AI multimodale
TRINE è un acceleratore FPGA a singolo bitstream e compilatore progettato per l'inferenza multimodale senza necessità di riconfigurazione. Consolida i layer in formati DDMM/SDDMM/SpMM e li assegna a un motore commutabile, che può passare a runtime tra systolic weight/output-stationary, 1xCS SIMD e un albero di addizione instradabile su un array PE condiviso. Un'unità top-k a due stadi, abbinata in larghezza, facilita il pruning dei token in-stream, mentre lo scaricamento dei layer che considera le dipendenze consente la sovrapposizione di kernel indipendenti tra unità di elaborazione riconfigurabili. Testato su Alveo U50 e ZCU104, TRINE raggiunge riduzioni di latenza fino a 22,57x rispetto a RTX 4090 e 6,86x rispetto a Jetson Orin Nano a 20-21 W; il solo pruning dei token può migliorare le prestazioni fino a 7,8x in pipeline pesanti in ViT.
Fatti principali
- TRINE è un acceleratore FPGA a singolo bitstream e compilatore per inferenza multimodale.
- Esegue inferenza multimodale end-to-end senza riconfigurazione.
- I layer sono unificati come DDMM/SDDMM/SpMM.
- Il motore commuta a runtime tra tre modalità: systolic weight/output-stationary, 1xCS SIMD e albero di addizione instradabile.
- Un'unità top-k a due stadi abilita il pruning dei token in-stream.
- Lo scaricamento dei layer con consapevolezza delle dipendenze (DALO) sovrappone kernel indipendenti.
- Valutato su FPGA Alveo U50 e ZCU104.
- TRINE riduce la latenza fino a 22,57x rispetto a RTX 4090 e 6,86x rispetto a Jetson Orin Nano a 20-21 W.
- Il pruning dei token produce un'accelerazione fino a 7,8x su pipeline pesanti in ViT.
Entità
—