Inferenza VLA efficiente in memoria su GPU con VRAM limitata tramite swapping CPU-GPU

ai-technology · 2026-05-13

Un nuovo framework consente un'inferenza efficiente in memoria per modelli Vision-Language-Action (VLA) su GPU commerciali con solo 12-16 GB di VRAM, senza modificare il modello. I modelli VLA per la guida autonoma richiedono tipicamente 20-60 GB di memoria GPU. L'approccio utilizza tre fasi: Sequential Demand Layering riduce l'uso di VRAM a granularità di livello; Pipelined Demand Layering sovrappone il trasferimento dei parametri con il calcolo; e una GPU-Resident Layer Decision Policy elimina il sovraccarico residuo di trasferimento. Un modello di previsione delle prestazioni determina la configurazione ottimale. Il lavoro è pubblicato su arXiv (2605.11678).

Fatti principali

I modelli VLA richiedono 20-60 GB di memoria GPU
Le GPU commerciali hanno 12-16 GB di VRAM
Il framework consente l'inferenza senza modificare il modello
Ottimizzazione in tre fasi: Sequential Demand Layering, Pipelined Demand Layering, GPU-Resident Layer Decision Policy
Modello di previsione delle prestazioni per la configurazione ottimale
Pubblicato su arXiv con ID 2605.11678

Inferenza VLA efficiente in memoria su GPU con VRAM limitata tramite swapping CPU-GPU

Fatti principali

Entità

Istituzioni

Fonti