DMI-Lib: Un Ispettore di Modelli Profondi ad Alta Velocità per l'Inferenza LLM
DMI-Lib è un rapido ispettore di modelli profondi che considera l'osservabilità interna come componente cruciale per l'inferenza LLM. Separa l'osservabilità dal percorso di inferenza utilizzando un framework asincrono basato su Ring^2, che funge da astrazione di memoria GPU-CPU per catturare e mettere in scena tensori, insieme a un backend host guidato da policy per l'esportazione. Questo strumento consente il posizionamento strategico di punti di osservazione su un'ampia gamma di segnali interni e vari backend di inferenza, mantenendo al contempo le ottimizzazioni di servizio entro rigidi limiti di memoria GPU. I test indicano che DMI-Lib comporta solo un overhead dello 0,4%–6,8% durante l'inferenza batch offline e in media del 6% in servizio online moderato, ottenendo una riduzione della latenza di 2x–15x rispetto ai benchmark attuali. La libreria è disponibile come open source su https://github.com.
Fatti principali
- DMI-Lib è un ispettore di modelli profondi ad alta velocità per l'inferenza LLM.
- Tratta l'osservabilità interna come un primitivo di sistema di prima classe.
- Disaccoppia l'osservabilità dal percorso caldo di inferenza tramite un substrato asincrono.
- Il substrato è costruito su Ring^2, un'astrazione di memoria GPU-CPU.
- Utilizza un backend host controllato da policy per esportare tensori.
- DMI-Lib abilita punti di osservazione attraverso segnali interni e backend di inferenza.
- Preserva le ottimizzazioni di servizio e rispetta i budget di memoria GPU.
- L'overhead è dello 0,4%–6,8% nell'inferenza batch offline e del 6% nel servizio online.
- La riduzione della latenza è di 2x–15x rispetto ai baselines.
- DMI-Lib è open source su https://github.com.
Entità
—