LLM come surrogati selettivi di GPU per l'ottimizzazione dei kernel

ai-technology · 2026-06-01

Un nuovo preprint arXiv (2605.31464) propone l'uso di modelli linguistici di grandi dimensioni come surrogati selettivi per la valutazione del runtime dei kernel GPU. L'ottimizzazione dei kernel GPU, essenziale per il deep learning, richiede tipicamente costose misurazioni su dispositivo che comportano compilazione ed esecuzione ripetuta. Con l'espansione delle ricerche guidate da LLM, questa valutazione diventa un collo di bottiglia. Lo studio esplora come gli LLM possano prevedere le prestazioni dei kernel, rimandando all'hardware reale in caso di incertezza. Il surrogato deve essere accurato, calibrato e praticamente utile per recuperare kernel veloci. L'articolo valuta questi criteri senza nominare LLM o dataset specifici.

Fatti principali

Il preprint arXiv 2605.31464 propone LLM come surrogati selettivi di GPU per l'ottimizzazione del runtime dei kernel.
L'ottimizzazione dei kernel GPU richiede tipicamente costose misurazioni su dispositivo tramite compilazione ed esecuzione.
Le ricerche di kernel guidate da LLM stanno scalando, rendendo la valutazione su dispositivo un collo di bottiglia.
Il surrogato deve essere accurato, selettivo (sapere quando rimandare) e calibrato.
I criteri di valutazione includono l'accuratezza delle previsioni, la calibrazione e l'utilità pratica per recuperare kernel veloci.
Lo studio non specifica quali LLM o hardware siano stati utilizzati.
L'articolo è categorizzato come annuncio cross-type su arXiv.
L'approccio mira a ridurre il costo della valutazione dei kernel nel deep learning.

LLM come surrogati selettivi di GPU per l'ottimizzazione dei kernel

Fatti principali

Entità

Istituzioni

Fonti