DMI-Lib: Un Ispettore di Modelli Profondi ad Alta Velocità per l'Inferenza LLM

ai-technology · 2026-05-13

DMI-Lib è un rapido ispettore di modelli profondi che considera l'osservabilità interna come componente cruciale per l'inferenza LLM. Separa l'osservabilità dal percorso di inferenza utilizzando un framework asincrono basato su Ring^2, che funge da astrazione di memoria GPU-CPU per catturare e mettere in scena tensori, insieme a un backend host guidato da policy per l'esportazione. Questo strumento consente il posizionamento strategico di punti di osservazione su un'ampia gamma di segnali interni e vari backend di inferenza, mantenendo al contempo le ottimizzazioni di servizio entro rigidi limiti di memoria GPU. I test indicano che DMI-Lib comporta solo un overhead dello 0,4%–6,8% durante l'inferenza batch offline e in media del 6% in servizio online moderato, ottenendo una riduzione della latenza di 2x–15x rispetto ai benchmark attuali. La libreria è disponibile come open source su https://github.com.

Fatti principali

DMI-Lib è un ispettore di modelli profondi ad alta velocità per l'inferenza LLM.
Tratta l'osservabilità interna come un primitivo di sistema di prima classe.
Disaccoppia l'osservabilità dal percorso caldo di inferenza tramite un substrato asincrono.
Il substrato è costruito su Ring^2, un'astrazione di memoria GPU-CPU.
Utilizza un backend host controllato da policy per esportare tensori.
DMI-Lib abilita punti di osservazione attraverso segnali interni e backend di inferenza.
Preserva le ottimizzazioni di servizio e rispetta i budget di memoria GPU.
L'overhead è dello 0,4%–6,8% nell'inferenza batch offline e del 6% nel servizio online.
La riduzione della latenza è di 2x–15x rispetto ai baselines.
DMI-Lib è open source su https://github.com.

Entità

—

Fonti

arXiv cs.AI — 2026-05-13