ARTFEED — Contemporary Art Intelligence

Demo di Gemma 4 VLA su Jetson Orin Nano Super

ai-technology · 2026-04-24

Asier Arranz di NVIDIA ha pubblicato un tutorial che dimostra Gemma 4, un modello visione-linguaggio-azione (VLA), in esecuzione su un Jetson Orin Nano Super (8 GB). La demo utilizza una webcam Logitech C920 e una tastiera USB per l'interazione vocale. Il modello decide autonomamente se utilizzare la visione in base alle domande dell'utente, senza trigger di parole chiave. La configurazione richiede llama.cpp con Gemma 4 GGUF e un proiettore di visione (mmproj). Il tutorial copre pacchetti di sistema, ambiente Python, ottimizzazione RAM, servizio del modello ed esecuzione della demo. È disponibile anche un'alternativa testuale basata su Docker per Jetson Orin. Il progetto è disponibile su GitHub come asierarranz/Google_Gemma.

Fatti principali

  • La demo di Gemma 4 VLA funziona su Jetson Orin Nano Super (8 GB).
  • Il modello decide autonomamente quando usare la visione in base al contesto.
  • L'hardware include una webcam Logitech C920 e una tastiera USB.
  • Utilizza llama.cpp con Gemma 4 GGUF e un proiettore di visione (mmproj).
  • Il tutorial copre pacchetti di sistema, ambiente Python e ottimizzazione RAM.
  • Disponibile un'alternativa testuale basata su Docker per Jetson Orin.
  • Progetto su GitHub: asierarranz/Google_Gemma.
  • Il primo avvio scarica Parakeet STT, Kokoro TTS e prompt vocali.

Entità

Artisti

  • Asier Arranz

Istituzioni

  • NVIDIA
  • Hugging Face
  • Jetson AI Lab
  • GitHub

Fonti