Controllo Fine dello Stile di Parlato in Modelli TTS Basati su Prompt

other · 2026-05-28

I ricercatori hanno introdotto metodi per ottenere un controllo dettagliato sugli stili di parlato nei modelli text-to-speech (TTS) basati su prompt. Questo studio affronta le carenze dei modelli esistenti, che tipicamente impongono uno stile uniforme per tutta l'enunciazione, limitando le applicazioni che richiedono cambiamenti graduali di stile su più enunciati o all'interno di un singolo enunciato. Per facilitare l'interpolazione di stile tra enunciati, il team calcola vettori di direzione da prompt di stile contrastanti nello spazio di embedding. Inoltre, riconoscono un significativo bias di attenzione verso i token iniziali nei decoder TTS autoregressivi e propongono la manipolazione della cache KV per contrastare questo problema, consentendo modifiche flessibili dello stile all'interno di un singolo enunciato.

Fatti principali

arXiv:2605.27376v1
Tipo di annuncio: cross
Abstract: i modelli TTS basati su prompt consentono il controllo dello stile di parlato guidato dal linguaggio naturale
Controllo fine limitato e unico stile globale per enunciato
Propone tecniche per l'interpolazione di stile tra enunciati e la transizione di stile all'interno dell'enunciato
Inter-enunciato: vettori di direzione tra prompt di stile contrastanti nello spazio di embedding
Intra-enunciato: identifica il bias di attenzione verso i token iniziali nei decoder TTS autoregressivi
Introduce la manipolazione della cache KV per mitigare il bias di attenzione

Entità

—

Fonti

arXiv cs.AI — 2026-05-28