Reachy Mini Robot esegue pipeline vocale completamente locale

ai-technology · 2026-05-27

Pollen Robotics e Hugging Face hanno abilitato conversazioni vocali completamente locali con il robot Reachy Mini utilizzando una pipeline vocale a cascata. Il sistema funziona interamente sull'hardware dell'utente, senza dipendenza dal cloud, senza chiavi API e senza che i dati lascino la macchina. La pipeline combina Silero VAD, Parakeet-TDT STT, un LLM (consigliato: Gemma 4 tramite llama.cpp o Qwen3-4B tramite MLX/vLLM) e Qwen3-TTS. Gli utenti possono distribuire il backend localmente e connettere il robot tramite un server WebSocket all'indirizzo /v1/realtime. L'approccio offre privacy, costi API zero e controllo completo su ogni componente. Il blog fornisce istruzioni passo-passo per configurare llama.cpp con Gemma 4, MLX su Apple Silicon, vLLM, Hugging Face Inference Endpoints e provider compatibili con OpenAI. Il sistema supporta più backend LLM e può essere personalizzato per diverse lingue o compromessi qualità-velocità. Il progetto è open-source, con repository su Hugging Face e GitHub.

Fatti principali

Reachy Mini ora può eseguire conversazioni vocali completamente locali senza dipendenza dal cloud.
La pipeline utilizza Silero VAD, Parakeet-TDT STT, un LLM e Qwen3-TTS.
Configurazione LLM consigliata: llama.cpp con Gemma 4, o MLX con Qwen3-4B.
Il sistema espone un server WebSocket all'indirizzo /v1/realtime compatibile con Reachy Mini.
Gli utenti possono sostituire qualsiasi componente della pipeline a cascata.
L'approccio garantisce privacy ed elimina i costi API.
Supporto per più backend LLM: locali (llama.cpp, MLX, Transformers, vLLM) o ospitati (OpenAI, Gemini, HF Inference Endpoints).
Il progetto è open-source con repository su Hugging Face.

Entità

Istituzioni

Pollen Robotics
Hugging Face
OpenAI
Gemini
Together
Fireworks
Replicate
OpenRouter

Fonti

Hugging Face Blog — 2026-05-27