Prima valutazione indipendente di CuTile di NVIDIA su GPU Hopper e Blackwell
Uno studio recente pubblicato su arXiv valuta il nuovo CuTile di NVIDIA, un framework Python per creare kernel GPU ottimizzati per l'elaborazione a tile. L'analisi confronta le prestazioni di CuTile con librerie consolidate come cuBLAS, Triton e WMMA utilizzando tre diverse GPU NVIDIA: H100 NVL, B200 e RTX PRO 6000. Sono stati testati diversi benchmark AI, tra cui GEMM e inferenza di modelli linguistici di grandi dimensioni in precisione BF16/FP16. I risultati indicano che l'efficienza di CuTile dipende dal carico di lavoro e dall'architettura, con la Blackwell B200 che raggiunge prestazioni notevoli di 1007 TFLOP/s per l'attention fusa, superando significativamente FlashAttention-2 utilizzando codice minimo.
Fatti principali
- Prima valutazione indipendente di CuTile di NVIDIA
- CuTile è un'astrazione basata su tile e Python per lo sviluppo di kernel GPU
- Confrontato con cuBLAS, Triton, WMMA e SIMT puro
- Testato su GPU H100 NVL, B200 e RTX PRO 6000 Blackwell Server Edition
- Carichi di lavoro: GEMM, attention multi-testa fusa, inferenza LLM end-to-end
- Precisione utilizzata: BF16/FP16
- Su B200, CuTile ha raggiunto fino a 1007 TFLOP/s per l'attention fusa
- CuTile ha superato FlashAttention-2 di 2,5x su B200
- CuTile ha richiesto solo 60 righe di codice kernel Python per l'attention fusa
- L'efficacia di CuTile dipende dal carico di lavoro e dall'architettura
Entità
Istituzioni
- NVIDIA
- arXiv