ARTFEED — Contemporary Art Intelligence

X-Voice: Clonazione Vocale Zero-Shot in 30 Lingue

ai-technology · 2026-05-09

Un nuovo modello multilingue di clonazione vocale chiamato X-Voice è stato presentato dai ricercatori, con 0,4 miliardi di parametri che consentono agli utenti di comunicare in 30 lingue. Il modello è stato sviluppato utilizzando un dataset multilingue di 420.000 ore e impiega l'Alfabeto Fonetico Internazionale (IPA) per una rappresentazione coerente, eliminando così la necessità di trascrizioni testuali dei prompt attraverso un approccio di addestramento in due fasi. Nella prima fase, X-Voice$_{\text{s1}}$ viene creato utilizzando l'addestramento standard di conditional flow-matching, generando 10.000 ore di segmenti audio per i prompt. La seconda fase prevede il fine-tuning di queste coppie audio con testo del prompt mascherato, ottenendo X-Voice$_{\text{s2}}$, che può eseguire la clonazione vocale zero-shot senza bisogno di trascrizioni. L'architettura migliora F5-TTS incorporando l'iniezione di identificatori linguistici a doppio livello e ottimizzando la Classifier-Free Guidance. Questa ricerca è documentata in un articolo disponibile su arXiv (2605.05611).

Fatti principali

  • X-Voice è un modello di clonazione vocale zero-shot multilingue da 0,4 miliardi di parametri.
  • Consente di parlare 30 lingue tramite clonazione vocale.
  • Addestrato su un corpus multilingue di 420.000 ore.
  • Utilizza l'IPA come rappresentazione unificata.
  • Il paradigma di addestramento in due fasi elimina la dipendenza dalle trascrizioni testuali dei prompt.
  • Fase 1: X-Voice$_{\text{s1}}$ tramite conditional flow-matching, sintetizza 10.000 ore di prompt audio.
  • Fase 2: X-Voice$_{\text{s2}}$ ottimizzato su coppie audio mascherate per la clonazione zero-shot.
  • L'architettura estende F5-TTS con iniezione di identificatori linguistici a doppio livello e disaccoppiamento/pianificazione CFG.

Entità

Istituzioni

  • arXiv

Fonti