ARTFEED — Contemporary Art Intelligence

Divario nell'inferenza fisica dell'IA: il decode batch-1 LLM non è limitato dalla larghezza di banda della memoria

ai-technology · 2026-06-01

Uno studio recente contesta la convinzione tradizionale secondo cui il decode autoregressivo batch-1 nei sistemi di IA fisica sia principalmente limitato dalla larghezza di banda della memoria. I ricercatori hanno valutato il decode a flusso singolo per tre trasformatori GQA nella gamma 7-8B su quattro GPU NVIDIA (H100 SXM5, A100-80GB SXM4, L40S, L4) con lunghezze di contesto variabili da 2048 a 16384, ottenendo 44 celle valide in bf16 SDPA. I loro risultati hanno rivelato che la frazione della larghezza di banda HBM di picco raggiunta diminuisce all'aumentare della larghezza di banda di picco. Ad esempio, la L4 su Qwen-2.5-7B con lunghezza di contesto 2048 raggiunge circa l'81% del suo limite di memoria teorico, mentre la H100 raggiunge una percentuale inferiore. Ciò suggerisce che fattori oltre alla larghezza di banda, come il calcolo o la latenza della memoria, influenzano anche le prestazioni, influenzando l'ottimizzazione per robot, veicoli autonomi e dispositivi edge.

Fatti principali

  • I sistemi di IA fisica eseguono decode autoregressivo batch-1, non il serving cloud LLM.
  • Il carico di lavoro è solitamente descritto come limitato dalla larghezza di banda della memoria.
  • Lo studio ha misurato tre trasformatori GQA di classe 7-8B su quattro GPU NVIDIA: H100 SXM5, A100-80GB SXM4, L40S, L4.
  • Lunghezze di contesto valutate: da 2048 a 16384.
  • 44 celle valide prodotte in configurazione bf16 SDPA controllata.
  • La frazione della larghezza di banda HBM di picco raggiunta diminuisce all'aumentare della larghezza di banda di picco.
  • Su Qwen-2.5-7B ctx=2048, L4 raggiunge circa l'81% del limite di memoria analitico; H100 raggiunge una frazione inferiore.
  • I risultati suggeriscono che il carico di lavoro non è puramente limitato dalla larghezza di banda della memoria.

Entità

Istituzioni

  • NVIDIA
  • arXiv

Fonti