ARTFEED — Contemporary Art Intelligence

AgentKernelArena: Benchmark per testare agenti AI nell'ottimizzazione di kernel GPU

ai-technology · 2026-05-20

AgentKernelArena è un benchmark open-source progettato per valutare agenti di codifica AI nell'ottimizzazione di kernel GPU. Comprende 196 compiti distinti, tra cui ottimizzazione HIP-to-HIP, ottimizzazione Triton-to-Triton e traduzione PyTorch-to-HIP. Questo benchmark esamina l'intero flusso di lavoro degli agenti in ambienti isolati, utilizzando compilazione controllata, valutazioni di correttezza e prestazioni, punteggio centralizzato e un protocollo di generalizzazione per configurazioni non viste, per determinare se le ottimizzazioni sono applicabili in nuovi contesti. A differenza dei benchmark esistenti che si concentrano solo su singole chiamate LLM, AgentKernelArena integra in modo unico sia l'ottimizzazione kernel-to-kernel che il test di generalizzazione su configurazioni non viste. Poiché l'ottimizzazione dei kernel GPU diventa fondamentale per un deep learning efficiente, la richiesta di kernel ad alte prestazioni richiede una notevole conoscenza di basso livello. I recenti agenti di codifica AI sono in grado di analizzare iterativamente il codice, utilizzare compilatori e profiler e migliorare le implementazioni.

Fatti principali

  • AgentKernelArena è un benchmark open-source per agenti di codifica AI sull'ottimizzazione di kernel GPU.
  • Il benchmark contiene 196 compiti.
  • I compiti spaziano dall'ottimizzazione HIP-to-HIP, all'ottimizzazione Triton-to-Triton e alla traduzione PyTorch-to-HIP.
  • Valuta l'intero flusso di lavoro degli agenti in ambienti isolati.
  • Utilizza compilazione controllata, controlli di correttezza e prestazioni.
  • Include punteggio centralizzato e un protocollo di generalizzazione per configurazioni non viste.
  • I benchmark esistenti valutano singole chiamate LLM, non l'intero flusso di lavoro degli agenti.
  • L'ottimizzazione dei kernel GPU è critica per sistemi di deep learning efficienti.

Entità

Istituzioni

  • arXiv

Fonti