Il Framework Argus Utilizza Invarianti del Flusso di Dati per Migliorare le Prestazioni dei Kernel GPU Generati da LLM
Un nuovo framework chiamato Argus è stato creato per migliorare le prestazioni dei kernel GPU prodotti da agenti di codifica basati su LLM. Sebbene questi agenti possano generare kernel accurati per compiti come la moltiplicazione di matrici e Mixture-of-Experts (MoE), la loro efficienza è inferiore rispetto alle librerie ottimizzate manualmente. Per ottenere prestazioni GPU ottimali, sono essenziali ottimizzazioni coordinate, ma gli agenti attuali dipendono da feedback sporadici, il che ostacola la loro capacità di identificare violazioni di vincoli globali. Argus affronta questo problema utilizzando invarianti del flusso di dati come specifiche in fase di compilazione. Presenta un linguaggio specifico di dominio (DSL) Pythonico basato su tasselli che rivela istruzioni hardware e politiche del compilatore. Questa ricerca è dettagliata in una preprint arXiv (identificatore 2604.18616v1), con l'obiettivo di colmare il divario prestazionale nell'elaborazione GPU ad alte prestazioni.
Fatti principali
- Argus è un framework agentico per ottimizzare i kernel GPU generati da agenti di codifica basati su LLM.
- Gli agenti basati su LLM producono kernel funzionalmente corretti ma con prestazioni inferiori rispetto alle librerie ottimizzate manualmente.
- I calcoli chiave includono moltiplicazione di matrici, attenzione e Mixture-of-Experts (MoE).
- Le prestazioni GPU di picco richiedono ottimizzazioni coordinate come tassellatura, gestione in memoria condivisa, pipeline software e schedulazione delle istruzioni.
- Gli agenti esistenti utilizzano feedback sporadici di superamento/fallimento, limitando la loro capacità di diagnosticare violazioni di vincoli globali.
- Argus utilizza invarianti del flusso di dati come specifiche in fase di compilazione per la coreografia dei dati durante l'esecuzione del kernel.
- Il framework presenta un DSL Pythonico basato su tasselli che espone istruzioni hardware e politiche del compilatore.
- Il lavoro è documentato nella preprint arXiv 2604.18616v1, annunciata come una sottomissione cross-type.
Entità
Istituzioni
- arXiv