FastKernels: Un Benchmark di Kernel GPU di Grado Produttivo per Agenti LLM
FastKernels, un benchmark recentemente introdotto, mira a risolvere le discrepanze tra gli attuali benchmark di kernel GPU e i framework di inferenza di produzione reali. I benchmark esistenti valutano i kernel utilizzando input sintetici su singole GPU, trascurano gli stack di compilazione e favoriscono la replica di ottimizzazioni consolidate. Ciò porta alla creazione di kernel che funzionano bene in ambienti controllati ma causano problemi di compatibilità, conflitti negli stack di compilazione e cali di correttezza inosservati nelle applicazioni reali. FastKernels comprende 46 architetture diverse in 8 categorie, coprendo il 96,2% (409/425) delle architetture HuggingFace Transformers. Inoltre, funge da benchmark snello e pronto per la produzione, progettato per fornire segnali di ricompensa precisi per agenti che generano kernel GPU basati su LLM.
Fatti principali
- 1. I benchmark di kernel GPU esistenti sono scarsamente allineati con i framework di inferenza di produzione.
- 2. I benchmark valutano i kernel su singole GPU con input sintetici.
- 3. I benchmark attuali ignorano lo stack di compilazione circostante.
- 4. I benchmark esistenti premiano la replica di ottimizzazioni note piuttosto che la scoperta di nuove.
- 5. Gli agenti imparano a generare kernel che ottengono buoni punteggi in sandbox ma falliscono nei sistemi reali.
- 6. FastKernels è un nuovo benchmark basato su 46 architetture rappresentative.
- 7. Le 46 architetture coprono 8 categorie.
- 8. FastKernels copre il 96,2% (409/425) delle architetture HuggingFace Transformers.
Entità
Istituzioni
- HuggingFace
- arXiv