Xe-Forge: Ottimizzazione del Kernel basata su LLM per GPU Intel
Xe-Forge è una pipeline multi-stadio basata su LLM che automatizza l'ottimizzazione dei kernel per GPU Intel. Affronta il collo di bottiglia manuale nell'applicazione di ottimizzazioni di basso livello—quantizzazione, coalescenza degli accessi alla memoria, regolazione delle dimensioni dei tile e soluzioni specifiche per architettura—ai kernel Triton. Il sistema applica fino a nove fasi di ottimizzazione, tra cui ristrutturazione algoritmica, fusione degli operatori, modernizzazione dei puntatori a blocchi, ottimizzazione specifica per GPU e scoperta aperta. Ogni fase è guidata da un agente Chain-of-Verification-and-Refinement (CoVeR) che genera candidati e li convalida. Il lavoro è pubblicato su arXiv (2605.26118) e mira al porting di algoritmi di deep learning su nuovi acceleratori hardware.
Fatti principali
- Xe-Forge automatizza l'ottimizzazione dei kernel per GPU Intel
- Applica fino a nove fasi di ottimizzazione
- Utilizza agenti Chain-of-Verification-and-Refinement (CoVeR)
- Si rivolge ai kernel Triton
- Le ottimizzazioni includono quantizzazione, coalescenza della memoria, regolazione dei tile
- Pubblicato su arXiv con ID 2605.26118
- Affronta il collo di bottiglia manuale nel porting di algoritmi di deep learning
- Il sistema esegue ristrutturazione algoritmica e fusione degli operatori
Entità
Istituzioni
- Intel
- arXiv