Dooly: Profilazione Configurazione-Agnostica per la Simulazione dell'Inferenza di LLM
Un nuovo sistema chiamato Dooly, descritto in un preprint su arXiv (2605.07985), affronta l'alto costo della profilazione delle configurazioni di inferenza dei modelli linguistici di grandi dimensioni (LLM). I simulatori tradizionali basati su profili richiedono di riprofilare ogni operazione da zero per ogni configurazione, rendendo l'esplorazione costosa. Dooly sfrutta una comprensione strutturale: le dimensioni di input sono fissate dalla configurazione del modello o dipendenti dalla richiesta, e molti valori di configurazione (ad esempio, dimensione della testa, numero di strati) si ripetono tra modelli diversi. Eseguendo un singolo passaggio di inferenza ed etichettando le operazioni, Dooly ottiene una profilazione configurazione-agnostica e consapevole della ridondanza, consentendo una simulazione efficiente su hardware, motori di servizio, backend di attenzione e architetture di modelli.
Fatti principali
- Dooly è un sistema di profilazione configurazione-agnostica e consapevole della ridondanza per la simulazione dell'inferenza di LLM.
- È descritto nel preprint arXiv 2605.07985.
- I simulatori tradizionali basati su profili codificano set di operazioni e riprofilano da zero.
- Dooly esegue un singolo passaggio di inferenza ed etichetta le operazioni.
- Sfrutta il fatto che molti valori di configurazione del modello si ripetono tra modelli diversi.
- Dooly consente un'esplorazione efficiente di hardware, motori di servizio, backend di attenzione e architetture di modelli.
Entità
Istituzioni
- arXiv