X-Voice: Clonazione Vocale Zero-Shot in 30 Lingue
Un nuovo modello multilingue di clonazione vocale chiamato X-Voice è stato presentato dai ricercatori, con 0,4 miliardi di parametri che consentono agli utenti di comunicare in 30 lingue. Il modello è stato sviluppato utilizzando un dataset multilingue di 420.000 ore e impiega l'Alfabeto Fonetico Internazionale (IPA) per una rappresentazione coerente, eliminando così la necessità di trascrizioni testuali dei prompt attraverso un approccio di addestramento in due fasi. Nella prima fase, X-Voice$_{\text{s1}}$ viene creato utilizzando l'addestramento standard di conditional flow-matching, generando 10.000 ore di segmenti audio per i prompt. La seconda fase prevede il fine-tuning di queste coppie audio con testo del prompt mascherato, ottenendo X-Voice$_{\text{s2}}$, che può eseguire la clonazione vocale zero-shot senza bisogno di trascrizioni. L'architettura migliora F5-TTS incorporando l'iniezione di identificatori linguistici a doppio livello e ottimizzando la Classifier-Free Guidance. Questa ricerca è documentata in un articolo disponibile su arXiv (2605.05611).
Fatti principali
- X-Voice è un modello di clonazione vocale zero-shot multilingue da 0,4 miliardi di parametri.
- Consente di parlare 30 lingue tramite clonazione vocale.
- Addestrato su un corpus multilingue di 420.000 ore.
- Utilizza l'IPA come rappresentazione unificata.
- Il paradigma di addestramento in due fasi elimina la dipendenza dalle trascrizioni testuali dei prompt.
- Fase 1: X-Voice$_{\text{s1}}$ tramite conditional flow-matching, sintetizza 10.000 ore di prompt audio.
- Fase 2: X-Voice$_{\text{s2}}$ ottimizzato su coppie audio mascherate per la clonazione zero-shot.
- L'architettura estende F5-TTS con iniezione di identificatori linguistici a doppio livello e disaccoppiamento/pianificazione CFG.
Entità
Istituzioni
- arXiv