Kernel GPU IO-Aware Ottengono un Accelerazione di 3,9x per le Reti Neurali Grafiche
Un recente preprint su arXiv (ID 2605.31500) introduce implementazioni di kernel GPU che sono consapevoli dell'input/output (IO) per migliorare le prestazioni delle Reti Neurali Grafiche (GNN), che spesso affrontano sfide a causa di pattern di accesso alla memoria sparsi e irregolari. I ricercatori classificano i layer standard delle GNN in tre categorie: convoluzioni basate su SpMM, aggregazioni basate su riduzione e layer basati sull'attenzione (GATv2/Graph Transformer). Creano kernel GPU specializzati per ogni categoria che minimizzano il movimento dei dati e migliorano la località. La ricerca indaga anche il riordinamento dei grafi, rivelando che i suoi vantaggi variano in base alla mappatura del kernel, mostrando maggiore coerenza nei kernel paralleli ai vicini (dominati da gather) rispetto a quelli paralleli alle feature. In particolare, i kernel di attenzione fusi dimostrano un'accelerazione fino a 3,9× per i Graph Transformer.
Fatti principali
- Il preprint arXiv 2605.31500 propone kernel GPU IO-aware per GNN.
- Le GNN sono limitate dall'accesso alla memoria sparso e irregolare.
- I layer sono categorizzati in famiglie basate su SpMM, riduzione e attenzione.
- Kernel personalizzati riducono il movimento dei dati e migliorano la località.
- Il riordinamento dei grafi avvantaggia i kernel paralleli ai vicini più di quelli paralleli alle feature.
- I kernel di attenzione fusi raggiungono fino a 3,9× di accelerazione per i Graph Transformer.
- Framework come DGL e PyTorch Geometric materializzano intermedi edge-wise.
- Lo studio adotta una visione incentrata sull'intensità I/O e aritmetica.
Entità
Istituzioni
- arXiv
- DGL
- PyTorch Geometric