ARTFEED — Contemporary Art Intelligence

Microsoft rilascia in open-source la famiglia di modelli AI vocali VibeVoice

ai-technology · 2026-04-28

Microsoft ha reso open-source VibeVoice, una famiglia di modelli AI vocali all'avanguardia che comprende sia text-to-speech (TTS) che riconoscimento vocale automatico (ASR). Il modello VibeVoice-ASR gestisce fino a 60 minuti di audio in un unico passaggio, generando trascrizioni strutturate con diarizzazione dei parlanti, timestamp e contenuto, supportando oltre 50 lingue e hotwords personalizzate dall'utente. VibeVoice-TTS sintetizza discorsi fino a 90 minuti con un massimo di quattro parlanti distinti, ed è stato accettato come Oral a ICLR 2026. VibeVoice-Realtime è un modello leggero da 0,5 miliardi di parametri per TTS in streaming con una latenza di circa 300 ms. Un'innovazione fondamentale sono i tokenizzatori vocali continui che operano a 7,5 Hz, utilizzando un framework di diffusione next-token con un grande modello linguistico. Il codice di VibeVoice-TTS è stato rimosso dal repository dopo la scoperta di un uso improprio non coerente con l'intento dichiarato. I modelli sono integrati con Hugging Face Transformers e supportano l'inferenza vLLM. Microsoft sottolinea l'uso responsabile e mette in guardia contro deepfake e disinformazione.

Fatti principali

  • VibeVoice è una famiglia open-source di modelli AI vocali di Microsoft.
  • VibeVoice-ASR gestisce audio di 60 minuti in un unico passaggio con trascrizione strutturata.
  • VibeVoice-ASR supporta oltre 50 lingue e hotwords personalizzate.
  • VibeVoice-TTS sintetizza fino a 90 minuti di parlato con un massimo di 4 parlanti.
  • VibeVoice-TTS è stato accettato come Oral a ICLR 2026.
  • VibeVoice-Realtime è un modello TTS in streaming da 0,5 miliardi di parametri con latenza di circa 300 ms.
  • Innovazione fondamentale: tokenizzatori vocali continui a 7,5 Hz con diffusione next-token.
  • Il codice di VibeVoice-TTS è stato rimosso a causa di un uso improprio non coerente con l'intento dichiarato.

Entità

Istituzioni

  • Microsoft
  • Hugging Face
  • ICLR

Fonti