FMSD-TTS: Sintesi vocale tibetana multi-dialetto con pochi esempi

other · 2026-04-27

Un team di ricercatori ha presentato FMSD-TTS, un sistema di sintesi vocale all'avanguardia per il tibetano, che include i dialetti Ü-Tsang, Amdo e Kham. Questo sistema è in grado di generare parlato in diversi dialetti utilizzando solo una piccola quantità di audio di riferimento abbinato a etichette dialettali. Presenta un modulo specializzato che fonde le caratteristiche del parlante e del dialetto e utilizza una Rete di Routing Dinamico Specializzata per Dialetto (DSDR-Net) per catturare accuratamente le sfumature di ciascun dialetto preservando la voce del parlante. Le valutazioni mostrano che FMSD-TTS supera i modelli attuali sia nell'espressività dialettale che nella somiglianza al parlante. L'efficacia del parlato generato è stata testata attraverso un impegnativo compito di conversione dialettale da parlato a parlato. Puoi consultare la ricerca su arXiv, ID 2505.14351.

Fatti principali

Il tibetano è una lingua a basse risorse con pochi corpus di parlato paralleli tra i suoi tre dialetti principali: Ü-Tsang, Amdo e Kham.
FMSD-TTS è un framework di sintesi vocale multi-parlante e multi-dialetto con pochi esempi.
Il framework utilizza audio di riferimento limitato ed etichette dialettali esplicite.
Presenta un modulo di fusione parlante-dialetto e una Rete di Routing Dinamico Specializzata per Dialetto (DSDR-Net).
DSDR-Net cattura variazioni acustiche e linguistiche fini tra i dialetti preservando l'identità del parlante.
FMSD-TTS supera significativamente i modelli di base in espressività dialettale e somiglianza al parlante.
Il parlato sintetizzato è validato attraverso un compito di conversione dialettale da parlato a parlato.
L'articolo è disponibile su arXiv con ID 2505.14351.

FMSD-TTS: Sintesi vocale tibetana multi-dialetto con pochi esempi

Fatti principali

Entità

Istituzioni

Fonti