TCM-Serve: Scheduling sensibile alla modalità per l'inferenza di LLM multimodali

ai-technology · 2026-05-07

Un nuovo sistema chiamato TCM-Serve affronta le difficoltà di scheduling associate al servizio di modelli linguistici di grandi dimensioni multimodali (MLLM), come ChatGPT, Gemini e Copilot. Questi modelli elaborano testo, immagini e video, ma gli attuali framework di servizio LLM progettati per attività solo testuali soffrono di blocco testa-coda e prestazioni ridotte quando gestiscono richieste multimodali eterogenee. L'osservazione cruciale è che queste richieste hanno requisiti di risorse significativamente diversi: i video funzionano come camion, le immagini come auto e il testo come motociclette. TCM-Serve agisce come uno scheduler sensibile alla modalità, consentendo alle richieste più piccole (testo) di essere elaborate rapidamente mentre impedisce che quelle più grandi (immagini, video) vengano ritardate. Il sistema categorizza le richieste e modifica lo scheduling per garantire reattività interattiva. La ricerca è accessibile su arXiv con l'identificatore 2603.26498.

Fatti principali

TCM-Serve è uno scheduler sensibile alla modalità per l'inferenza di modelli linguistici di grandi dimensioni multimodali.
Le richieste multimodali differiscono di ordini di grandezza nei requisiti di risorse.
I video sono paragonati a camion, le immagini ad auto e il testo a motociclette.
I sistemi di servizio LLM esistenti ottimizzati per carichi di lavoro solo testuali falliscono in presenza di multimodalità.
Le richieste grandi come i video causano blocco testa-coda e degrado delle prestazioni.
TCM-Serve dà priorità alle richieste piccole per garantire reattività interattiva.
Il sistema evita la starvation delle richieste più grandi.
L'articolo è pubblicato su arXiv con ID 2603.26498.

TCM-Serve: Scheduling sensibile alla modalità per l'inferenza di LLM multimodali

Fatti principali

Entità

Istituzioni

Fonti