Inferenza VLA efficiente in memoria su GPU con VRAM limitata tramite swapping CPU-GPU
Un nuovo framework consente un'inferenza efficiente in memoria per modelli Vision-Language-Action (VLA) su GPU commerciali con solo 12-16 GB di VRAM, senza modificare il modello. I modelli VLA per la guida autonoma richiedono tipicamente 20-60 GB di memoria GPU. L'approccio utilizza tre fasi: Sequential Demand Layering riduce l'uso di VRAM a granularità di livello; Pipelined Demand Layering sovrappone il trasferimento dei parametri con il calcolo; e una GPU-Resident Layer Decision Policy elimina il sovraccarico residuo di trasferimento. Un modello di previsione delle prestazioni determina la configurazione ottimale. Il lavoro è pubblicato su arXiv (2605.11678).
Fatti principali
- I modelli VLA richiedono 20-60 GB di memoria GPU
- Le GPU commerciali hanno 12-16 GB di VRAM
- Il framework consente l'inferenza senza modificare il modello
- Ottimizzazione in tre fasi: Sequential Demand Layering, Pipelined Demand Layering, GPU-Resident Layer Decision Policy
- Modello di previsione delle prestazioni per la configurazione ottimale
- Pubblicato su arXiv con ID 2605.11678
Entità
Istituzioni
- arXiv