Kernel GPU IO-Aware Ottengono un Accelerazione di 3,9x per le Reti Neurali Grafiche

ai-technology · 2026-06-01

Un recente preprint su arXiv (ID 2605.31500) introduce implementazioni di kernel GPU che sono consapevoli dell'input/output (IO) per migliorare le prestazioni delle Reti Neurali Grafiche (GNN), che spesso affrontano sfide a causa di pattern di accesso alla memoria sparsi e irregolari. I ricercatori classificano i layer standard delle GNN in tre categorie: convoluzioni basate su SpMM, aggregazioni basate su riduzione e layer basati sull'attenzione (GATv2/Graph Transformer). Creano kernel GPU specializzati per ogni categoria che minimizzano il movimento dei dati e migliorano la località. La ricerca indaga anche il riordinamento dei grafi, rivelando che i suoi vantaggi variano in base alla mappatura del kernel, mostrando maggiore coerenza nei kernel paralleli ai vicini (dominati da gather) rispetto a quelli paralleli alle feature. In particolare, i kernel di attenzione fusi dimostrano un'accelerazione fino a 3,9× per i Graph Transformer.

Fatti principali

Il preprint arXiv 2605.31500 propone kernel GPU IO-aware per GNN.
Le GNN sono limitate dall'accesso alla memoria sparso e irregolare.
I layer sono categorizzati in famiglie basate su SpMM, riduzione e attenzione.
Kernel personalizzati riducono il movimento dei dati e migliorano la località.
Il riordinamento dei grafi avvantaggia i kernel paralleli ai vicini più di quelli paralleli alle feature.
I kernel di attenzione fusi raggiungono fino a 3,9× di accelerazione per i Graph Transformer.
Framework come DGL e PyTorch Geometric materializzano intermedi edge-wise.
Lo studio adotta una visione incentrata sull'intensità I/O e aritmetica.

Kernel GPU IO-Aware Ottengono un Accelerazione di 3,9x per le Reti Neurali Grafiche

Fatti principali

Entità

Istituzioni

Fonti