X-Voice: Clonazione Vocale Zero-Shot in 30 Lingue

ai-technology · 2026-05-09

Un nuovo modello multilingue di clonazione vocale chiamato X-Voice è stato presentato dai ricercatori, con 0,4 miliardi di parametri che consentono agli utenti di comunicare in 30 lingue. Il modello è stato sviluppato utilizzando un dataset multilingue di 420.000 ore e impiega l'Alfabeto Fonetico Internazionale (IPA) per una rappresentazione coerente, eliminando così la necessità di trascrizioni testuali dei prompt attraverso un approccio di addestramento in due fasi. Nella prima fase, X-Voice$_{\text{s1}}$ viene creato utilizzando l'addestramento standard di conditional flow-matching, generando 10.000 ore di segmenti audio per i prompt. La seconda fase prevede il fine-tuning di queste coppie audio con testo del prompt mascherato, ottenendo X-Voice$_{\text{s2}}$, che può eseguire la clonazione vocale zero-shot senza bisogno di trascrizioni. L'architettura migliora F5-TTS incorporando l'iniezione di identificatori linguistici a doppio livello e ottimizzando la Classifier-Free Guidance. Questa ricerca è documentata in un articolo disponibile su arXiv (2605.05611).

Fatti principali

X-Voice è un modello di clonazione vocale zero-shot multilingue da 0,4 miliardi di parametri.
Consente di parlare 30 lingue tramite clonazione vocale.
Addestrato su un corpus multilingue di 420.000 ore.
Utilizza l'IPA come rappresentazione unificata.
Il paradigma di addestramento in due fasi elimina la dipendenza dalle trascrizioni testuali dei prompt.
Fase 1: X-Voice$_{\text{s1}}$ tramite conditional flow-matching, sintetizza 10.000 ore di prompt audio.
Fase 2: X-Voice$_{\text{s2}}$ ottimizzato su coppie audio mascherate per la clonazione zero-shot.
L'architettura estende F5-TTS con iniezione di identificatori linguistici a doppio livello e disaccoppiamento/pianificazione CFG.

X-Voice: Clonazione Vocale Zero-Shot in 30 Lingue

Fatti principali

Entità

Istituzioni

Fonti