Il Dataset CASS e i Modelli Abilitano la Traduzione del Codice GPU tra Architetture con Alta Precisione
Una nuova raccolta di dataset e modelli denominata CASS mira a facilitare la transpilazione del codice GPU tra diverse architetture, colmando una lacuna nelle soluzioni scalabili di portabilità hardware. Questo sistema consente la traduzione a livello di codice sorgente tra CUDA e HIP, nonché la traduzione a livello di assembly tra SASS e RDNA3. CASS comprende 60.000 coppie di codice host-dispositivo validate, prodotte tramite una pipeline automatizzata che raccoglie, traduce, compila e allinea applicazioni GPU su varie piattaforme di fornitori. I ricercatori hanno utilizzato questo dataset per sviluppare modelli di traduzione specializzati, raggiungendo una precisione dell'88,2% per la conversione da CUDA a HIP e del 69,1% per quella da SASS a RDNA3. Questi risultati superano significativamente i benchmark commerciali, inclusi GPT-5.1, Claude-4.5 e Hipify. Il codice generato mantiene le prestazioni native nell'85% dei casi, conservando le caratteristiche di runtime e memoria. Per facilitare la valutazione, il team ha sviluppato CASS-Bench, uno strumento di benchmarking specifico. Questo lavoro illustra progressi significativi nella portabilità hardware a basso livello attraverso metodologie guidate dai dati.
Fatti principali
- CASS è una suite di dataset e modelli per la transpilazione del codice GPU tra architetture
- Abilita la traduzione tra CUDA e HIP a livello sorgente, SASS e RDNA3 a livello assembly
- Contiene 60.000 coppie di codice host-dispositivo verificate
- Utilizza una pipeline automatizzata per raccogliere, tradurre, compilare e allineare programmi GPU
- I modelli raggiungono l'88,2% di precisione nella traduzione CUDA -> HIP
- I modelli raggiungono il 69,1% di precisione nella traduzione SASS -> RDNA3
- Supera i benchmark commerciali inclusi GPT-5.1, Claude-4.5 e Hipify
- Il codice generato corrisponde alle prestazioni native nell'85% dei casi
Entità
—