ARTFEED — Contemporary Art Intelligence

Inferenza VLA efficiente in memoria su GPU con VRAM limitata tramite swapping CPU-GPU

ai-technology · 2026-05-13

Un nuovo framework consente un'inferenza efficiente in memoria per modelli Vision-Language-Action (VLA) su GPU commerciali con solo 12-16 GB di VRAM, senza modificare il modello. I modelli VLA per la guida autonoma richiedono tipicamente 20-60 GB di memoria GPU. L'approccio utilizza tre fasi: Sequential Demand Layering riduce l'uso di VRAM a granularità di livello; Pipelined Demand Layering sovrappone il trasferimento dei parametri con il calcolo; e una GPU-Resident Layer Decision Policy elimina il sovraccarico residuo di trasferimento. Un modello di previsione delle prestazioni determina la configurazione ottimale. Il lavoro è pubblicato su arXiv (2605.11678).

Fatti principali

  • I modelli VLA richiedono 20-60 GB di memoria GPU
  • Le GPU commerciali hanno 12-16 GB di VRAM
  • Il framework consente l'inferenza senza modificare il modello
  • Ottimizzazione in tre fasi: Sequential Demand Layering, Pipelined Demand Layering, GPU-Resident Layer Decision Policy
  • Modello di previsione delle prestazioni per la configurazione ottimale
  • Pubblicato su arXiv con ID 2605.11678

Entità

Istituzioni

  • arXiv

Fonti