Demo di Gemma 4 VLA su Jetson Orin Nano Super

ai-technology · 2026-04-24

Asier Arranz di NVIDIA ha pubblicato un tutorial che dimostra Gemma 4, un modello visione-linguaggio-azione (VLA), in esecuzione su un Jetson Orin Nano Super (8 GB). La demo utilizza una webcam Logitech C920 e una tastiera USB per l'interazione vocale. Il modello decide autonomamente se utilizzare la visione in base alle domande dell'utente, senza trigger di parole chiave. La configurazione richiede llama.cpp con Gemma 4 GGUF e un proiettore di visione (mmproj). Il tutorial copre pacchetti di sistema, ambiente Python, ottimizzazione RAM, servizio del modello ed esecuzione della demo. È disponibile anche un'alternativa testuale basata su Docker per Jetson Orin. Il progetto è disponibile su GitHub come asierarranz/Google_Gemma.

Fatti principali

La demo di Gemma 4 VLA funziona su Jetson Orin Nano Super (8 GB).
Il modello decide autonomamente quando usare la visione in base al contesto.
L'hardware include una webcam Logitech C920 e una tastiera USB.
Utilizza llama.cpp con Gemma 4 GGUF e un proiettore di visione (mmproj).
Il tutorial copre pacchetti di sistema, ambiente Python e ottimizzazione RAM.
Disponibile un'alternativa testuale basata su Docker per Jetson Orin.
Progetto su GitHub: asierarranz/Google_Gemma.
Il primo avvio scarica Parakeet STT, Kokoro TTS e prompt vocali.

Entità

Artisti

Asier Arranz

Istituzioni

NVIDIA
Hugging Face
Jetson AI Lab
GitHub

Fonti

Hugging Face Blog — 2026-04-22