L'illusione del power capping nel decode LLM: studio energetico fase-consapevole attraverso architetture di attenzione

ai-technology · 2026-05-13

Uno studio da arXiv (2605.11999v1) rivela che il power capping, una leva energetica standard della GPU nel serving LLM, è inefficace durante il decode autoregressivo, la fase dominante nel serving di produzione. Attraverso quattro paradigmi di attenzione—GQA, MLA, Gated DeltaNet e Mamba2—su GPU NVIDIA H200, il decode consuma solo 137–300 W su una GPU da 700 W, il che significa che nessun limite viene mai attivato perché il decode memory-bound satura la larghezza di banda HBM piuttosto che il calcolo, lasciando intatto il margine di potenza. Il clock throttling avviato dal firmware aggrava l'illusione corrompendo le misurazioni del throughput. Il blocco del clock SM risolve entrambi i problemi, dominando Pareto il power capping e recuperando fino al 32% dell'energia di decode con una perdita minima di throughput. Lo studio identifica tre fattori dipendenti dall'architettura che influenzano l'efficienza energetica.

Fatti principali

Il power capping è inefficace durante il decode autoregressivo nel serving LLM.
Lo studio ha testato GQA, MLA, Gated DeltaNet e Mamba2 su NVIDIA H200.
Il decode consuma solo 137–300 W su una GPU da 700 W.
Il decode memory-bound satura la larghezza di banda HBM, non il calcolo.
Il clock throttling del firmware corrompe le misurazioni del throughput.
Il blocco del clock SM recupera fino al 32% dell'energia di decode.
Il blocco del clock domina Pareto il power capping.
Sono stati identificati tre fattori dipendenti dall'architettura.

L'illusione del power capping nel decode LLM: studio energetico fase-consapevole attraverso architetture di attenzione

Fatti principali

Entità

Istituzioni

Fonti