Pianificazione multi-modello LLM sotto vincoli di memoria GPU

ai-technology · 2026-05-20

Un nuovo preprint arXiv (2605.19593) presenta uno studio empirico sulla pianificazione di più modelli linguistici di grandi dimensioni (LLM) su hardware eterogeneo condiviso. La ricerca si concentra sull'impatto prestazionale dell'offloading parziale CPU-GPU e della prelazione, rivelando che l'offloading causa un degrado non lineare e dipendente dal modello nel throughput di decodifica, con modelli più piccoli più sensibili alla ridotta residenza GPU. Lo studio evidenzia la mancanza di lavori esistenti sulla pianificazione multi-modello sotto vincoli di memoria e fornisce spunti per la progettazione futura di scheduler.

Fatti principali

Preprint arXiv 2605.19593
Studio sulla pianificazione multi-modello LLM
Focus su offloading e prelazione
Degrado non lineare del throughput di decodifica
Modelli più piccoli più sensibili all'offloading
Contesto hardware eterogeneo condiviso
Vincoli di memoria GPU
Studio empirico su piattaforme hardware

Pianificazione multi-modello LLM sotto vincoli di memoria GPU

Fatti principali

Entità

Istituzioni

Fonti