FMSD-TTS: Sintesi vocale tibetana multi-dialetto con pochi esempi
Un team di ricercatori ha presentato FMSD-TTS, un sistema di sintesi vocale all'avanguardia per il tibetano, che include i dialetti Ü-Tsang, Amdo e Kham. Questo sistema è in grado di generare parlato in diversi dialetti utilizzando solo una piccola quantità di audio di riferimento abbinato a etichette dialettali. Presenta un modulo specializzato che fonde le caratteristiche del parlante e del dialetto e utilizza una Rete di Routing Dinamico Specializzata per Dialetto (DSDR-Net) per catturare accuratamente le sfumature di ciascun dialetto preservando la voce del parlante. Le valutazioni mostrano che FMSD-TTS supera i modelli attuali sia nell'espressività dialettale che nella somiglianza al parlante. L'efficacia del parlato generato è stata testata attraverso un impegnativo compito di conversione dialettale da parlato a parlato. Puoi consultare la ricerca su arXiv, ID 2505.14351.
Fatti principali
- Il tibetano è una lingua a basse risorse con pochi corpus di parlato paralleli tra i suoi tre dialetti principali: Ü-Tsang, Amdo e Kham.
- FMSD-TTS è un framework di sintesi vocale multi-parlante e multi-dialetto con pochi esempi.
- Il framework utilizza audio di riferimento limitato ed etichette dialettali esplicite.
- Presenta un modulo di fusione parlante-dialetto e una Rete di Routing Dinamico Specializzata per Dialetto (DSDR-Net).
- DSDR-Net cattura variazioni acustiche e linguistiche fini tra i dialetti preservando l'identità del parlante.
- FMSD-TTS supera significativamente i modelli di base in espressività dialettale e somiglianza al parlante.
- Il parlato sintetizzato è validato attraverso un compito di conversione dialettale da parlato a parlato.
- L'articolo è disponibile su arXiv con ID 2505.14351.
Entità
Istituzioni
- arXiv