Prima valutazione indipendente di CuTile di NVIDIA su GPU Hopper e Blackwell

ai-technology · 2026-05-01

Uno studio recente pubblicato su arXiv valuta il nuovo CuTile di NVIDIA, un framework Python per creare kernel GPU ottimizzati per l'elaborazione a tile. L'analisi confronta le prestazioni di CuTile con librerie consolidate come cuBLAS, Triton e WMMA utilizzando tre diverse GPU NVIDIA: H100 NVL, B200 e RTX PRO 6000. Sono stati testati diversi benchmark AI, tra cui GEMM e inferenza di modelli linguistici di grandi dimensioni in precisione BF16/FP16. I risultati indicano che l'efficienza di CuTile dipende dal carico di lavoro e dall'architettura, con la Blackwell B200 che raggiunge prestazioni notevoli di 1007 TFLOP/s per l'attention fusa, superando significativamente FlashAttention-2 utilizzando codice minimo.

Fatti principali

Prima valutazione indipendente di CuTile di NVIDIA
CuTile è un'astrazione basata su tile e Python per lo sviluppo di kernel GPU
Confrontato con cuBLAS, Triton, WMMA e SIMT puro
Testato su GPU H100 NVL, B200 e RTX PRO 6000 Blackwell Server Edition
Carichi di lavoro: GEMM, attention multi-testa fusa, inferenza LLM end-to-end
Precisione utilizzata: BF16/FP16
Su B200, CuTile ha raggiunto fino a 1007 TFLOP/s per l'attention fusa
CuTile ha superato FlashAttention-2 di 2,5x su B200
CuTile ha richiesto solo 60 righe di codice kernel Python per l'attention fusa
L'efficacia di CuTile dipende dal carico di lavoro e dall'architettura

Prima valutazione indipendente di CuTile di NVIDIA su GPU Hopper e Blackwell

Fatti principali

Entità

Istituzioni

Fonti