Demo di Gemma 4 VLA su Jetson Orin Nano Super
Asier Arranz di NVIDIA ha pubblicato un tutorial che dimostra Gemma 4, un modello visione-linguaggio-azione (VLA), in esecuzione su un Jetson Orin Nano Super (8 GB). La demo utilizza una webcam Logitech C920 e una tastiera USB per l'interazione vocale. Il modello decide autonomamente se utilizzare la visione in base alle domande dell'utente, senza trigger di parole chiave. La configurazione richiede llama.cpp con Gemma 4 GGUF e un proiettore di visione (mmproj). Il tutorial copre pacchetti di sistema, ambiente Python, ottimizzazione RAM, servizio del modello ed esecuzione della demo. È disponibile anche un'alternativa testuale basata su Docker per Jetson Orin. Il progetto è disponibile su GitHub come asierarranz/Google_Gemma.
Fatti principali
- La demo di Gemma 4 VLA funziona su Jetson Orin Nano Super (8 GB).
- Il modello decide autonomamente quando usare la visione in base al contesto.
- L'hardware include una webcam Logitech C920 e una tastiera USB.
- Utilizza llama.cpp con Gemma 4 GGUF e un proiettore di visione (mmproj).
- Il tutorial copre pacchetti di sistema, ambiente Python e ottimizzazione RAM.
- Disponibile un'alternativa testuale basata su Docker per Jetson Orin.
- Progetto su GitHub: asierarranz/Google_Gemma.
- Il primo avvio scarica Parakeet STT, Kokoro TTS e prompt vocali.
Entità
Artisti
- Asier Arranz
Istituzioni
- NVIDIA
- Hugging Face
- Jetson AI Lab
- GitHub