ImmersiveTTS: Sintesi Vocale Consapevole dell'Ambiente con Trasformatore di Diffusione Multimodale
Un team di ricercatori ha presentato ImmersiveTTS, un modello di sintesi vocale che è consapevole dell'ambiente circostante e produce un parlato che si armonizza con i suoni ambientali. Utilizzando un trasformatore di diffusione multimodale e attenzione congiunta, il modello fonde i latenti del parlato allineati alla trascrizione con il contesto ambientale informato dal testo. Per migliorare la coerenza semantica, viene impiegato un obiettivo di allineamento della rappresentazione specifico del dominio, basato su rappresentazioni auto-supervisionate complementari provenienti sia dagli encoder vocali che audio. I risultati sperimentali indicano che il modello genera con successo un parlato naturale in vari contesti ambientali, affrontando efficacemente i problemi legati alle differenze nei pattern acustici e alle dinamiche temporali.
Fatti principali
- ImmersiveTTS è un modello di sintesi vocale consapevole dell'ambiente.
- Genera un parlato integrato con l'audio ambientale.
- Il modello utilizza un trasformatore di diffusione multimodale.
- L'attenzione congiunta fonde i latenti del parlato con il contesto ambientale.
- Viene introdotto un obiettivo di allineamento della rappresentazione specifico del dominio.
- Sfrutta rappresentazioni auto-supervisionate da encoder vocali e audio.
- Il modello affronta le disparità nei pattern acustici e le dinamiche temporali.
- I risultati sperimentali mostrano una generazione di parlato naturale in contesti ambientali.
Entità
Istituzioni
- arXiv