Controllo Fine dello Stile di Parlato in Modelli TTS Basati su Prompt
I ricercatori hanno introdotto metodi per ottenere un controllo dettagliato sugli stili di parlato nei modelli text-to-speech (TTS) basati su prompt. Questo studio affronta le carenze dei modelli esistenti, che tipicamente impongono uno stile uniforme per tutta l'enunciazione, limitando le applicazioni che richiedono cambiamenti graduali di stile su più enunciati o all'interno di un singolo enunciato. Per facilitare l'interpolazione di stile tra enunciati, il team calcola vettori di direzione da prompt di stile contrastanti nello spazio di embedding. Inoltre, riconoscono un significativo bias di attenzione verso i token iniziali nei decoder TTS autoregressivi e propongono la manipolazione della cache KV per contrastare questo problema, consentendo modifiche flessibili dello stile all'interno di un singolo enunciato.
Fatti principali
- arXiv:2605.27376v1
- Tipo di annuncio: cross
- Abstract: i modelli TTS basati su prompt consentono il controllo dello stile di parlato guidato dal linguaggio naturale
- Controllo fine limitato e unico stile globale per enunciato
- Propone tecniche per l'interpolazione di stile tra enunciati e la transizione di stile all'interno dell'enunciato
- Inter-enunciato: vettori di direzione tra prompt di stile contrastanti nello spazio di embedding
- Intra-enunciato: identifica il bias di attenzione verso i token iniziali nei decoder TTS autoregressivi
- Introduce la manipolazione della cache KV per mitigare il bias di attenzione
Entità
—