ARTFEED — Contemporary Art Intelligence

Reachy Mini Robot esegue pipeline vocale completamente locale

ai-technology · 2026-05-27

Pollen Robotics e Hugging Face hanno abilitato conversazioni vocali completamente locali con il robot Reachy Mini utilizzando una pipeline vocale a cascata. Il sistema funziona interamente sull'hardware dell'utente, senza dipendenza dal cloud, senza chiavi API e senza che i dati lascino la macchina. La pipeline combina Silero VAD, Parakeet-TDT STT, un LLM (consigliato: Gemma 4 tramite llama.cpp o Qwen3-4B tramite MLX/vLLM) e Qwen3-TTS. Gli utenti possono distribuire il backend localmente e connettere il robot tramite un server WebSocket all'indirizzo /v1/realtime. L'approccio offre privacy, costi API zero e controllo completo su ogni componente. Il blog fornisce istruzioni passo-passo per configurare llama.cpp con Gemma 4, MLX su Apple Silicon, vLLM, Hugging Face Inference Endpoints e provider compatibili con OpenAI. Il sistema supporta più backend LLM e può essere personalizzato per diverse lingue o compromessi qualità-velocità. Il progetto è open-source, con repository su Hugging Face e GitHub.

Fatti principali

  • Reachy Mini ora può eseguire conversazioni vocali completamente locali senza dipendenza dal cloud.
  • La pipeline utilizza Silero VAD, Parakeet-TDT STT, un LLM e Qwen3-TTS.
  • Configurazione LLM consigliata: llama.cpp con Gemma 4, o MLX con Qwen3-4B.
  • Il sistema espone un server WebSocket all'indirizzo /v1/realtime compatibile con Reachy Mini.
  • Gli utenti possono sostituire qualsiasi componente della pipeline a cascata.
  • L'approccio garantisce privacy ed elimina i costi API.
  • Supporto per più backend LLM: locali (llama.cpp, MLX, Transformers, vLLM) o ospitati (OpenAI, Gemini, HF Inference Endpoints).
  • Il progetto è open-source con repository su Hugging Face.

Entità

Istituzioni

  • Pollen Robotics
  • Hugging Face
  • OpenAI
  • Gemini
  • Together
  • Fireworks
  • Replicate
  • OpenRouter

Fonti