Pianificazione multi-modello LLM sotto vincoli di memoria GPU
Un nuovo preprint arXiv (2605.19593) presenta uno studio empirico sulla pianificazione di più modelli linguistici di grandi dimensioni (LLM) su hardware eterogeneo condiviso. La ricerca si concentra sull'impatto prestazionale dell'offloading parziale CPU-GPU e della prelazione, rivelando che l'offloading causa un degrado non lineare e dipendente dal modello nel throughput di decodifica, con modelli più piccoli più sensibili alla ridotta residenza GPU. Lo studio evidenzia la mancanza di lavori esistenti sulla pianificazione multi-modello sotto vincoli di memoria e fornisce spunti per la progettazione futura di scheduler.
Fatti principali
- Preprint arXiv 2605.19593
- Studio sulla pianificazione multi-modello LLM
- Focus su offloading e prelazione
- Degrado non lineare del throughput di decodifica
- Modelli più piccoli più sensibili all'offloading
- Contesto hardware eterogeneo condiviso
- Vincoli di memoria GPU
- Studio empirico su piattaforme hardware
Entità
Istituzioni
- arXiv