FastKernels: Un Benchmark di Kernel GPU di Grado Produttivo per Agenti LLM

other · 2026-05-25

FastKernels, un benchmark recentemente introdotto, mira a risolvere le discrepanze tra gli attuali benchmark di kernel GPU e i framework di inferenza di produzione reali. I benchmark esistenti valutano i kernel utilizzando input sintetici su singole GPU, trascurano gli stack di compilazione e favoriscono la replica di ottimizzazioni consolidate. Ciò porta alla creazione di kernel che funzionano bene in ambienti controllati ma causano problemi di compatibilità, conflitti negli stack di compilazione e cali di correttezza inosservati nelle applicazioni reali. FastKernels comprende 46 architetture diverse in 8 categorie, coprendo il 96,2% (409/425) delle architetture HuggingFace Transformers. Inoltre, funge da benchmark snello e pronto per la produzione, progettato per fornire segnali di ricompensa precisi per agenti che generano kernel GPU basati su LLM.

Fatti principali

1. I benchmark di kernel GPU esistenti sono scarsamente allineati con i framework di inferenza di produzione.
2. I benchmark valutano i kernel su singole GPU con input sintetici.
3. I benchmark attuali ignorano lo stack di compilazione circostante.
4. I benchmark esistenti premiano la replica di ottimizzazioni note piuttosto che la scoperta di nuove.
5. Gli agenti imparano a generare kernel che ottengono buoni punteggi in sandbox ma falliscono nei sistemi reali.
6. FastKernels è un nuovo benchmark basato su 46 architetture rappresentative.
7. Le 46 architetture coprono 8 categorie.
8. FastKernels copre il 96,2% (409/425) delle architetture HuggingFace Transformers.

FastKernels: Un Benchmark di Kernel GPU di Grado Produttivo per Agenti LLM

Fatti principali

Entità

Istituzioni

Fonti