Divario nell'inferenza fisica dell'IA: il decode batch-1 LLM non è limitato dalla larghezza di banda della memoria
Uno studio recente contesta la convinzione tradizionale secondo cui il decode autoregressivo batch-1 nei sistemi di IA fisica sia principalmente limitato dalla larghezza di banda della memoria. I ricercatori hanno valutato il decode a flusso singolo per tre trasformatori GQA nella gamma 7-8B su quattro GPU NVIDIA (H100 SXM5, A100-80GB SXM4, L40S, L4) con lunghezze di contesto variabili da 2048 a 16384, ottenendo 44 celle valide in bf16 SDPA. I loro risultati hanno rivelato che la frazione della larghezza di banda HBM di picco raggiunta diminuisce all'aumentare della larghezza di banda di picco. Ad esempio, la L4 su Qwen-2.5-7B con lunghezza di contesto 2048 raggiunge circa l'81% del suo limite di memoria teorico, mentre la H100 raggiunge una percentuale inferiore. Ciò suggerisce che fattori oltre alla larghezza di banda, come il calcolo o la latenza della memoria, influenzano anche le prestazioni, influenzando l'ottimizzazione per robot, veicoli autonomi e dispositivi edge.
Fatti principali
- I sistemi di IA fisica eseguono decode autoregressivo batch-1, non il serving cloud LLM.
- Il carico di lavoro è solitamente descritto come limitato dalla larghezza di banda della memoria.
- Lo studio ha misurato tre trasformatori GQA di classe 7-8B su quattro GPU NVIDIA: H100 SXM5, A100-80GB SXM4, L40S, L4.
- Lunghezze di contesto valutate: da 2048 a 16384.
- 44 celle valide prodotte in configurazione bf16 SDPA controllata.
- La frazione della larghezza di banda HBM di picco raggiunta diminuisce all'aumentare della larghezza di banda di picco.
- Su Qwen-2.5-7B ctx=2048, L4 raggiunge circa l'81% del limite di memoria analitico; H100 raggiunge una frazione inferiore.
- I risultati suggeriscono che il carico di lavoro non è puramente limitato dalla larghezza di banda della memoria.
Entità
Istituzioni
- NVIDIA
- arXiv