Chatterbox-Flash: TTS Zero-Shot con Diffusione a Blocchi
Chatterbox-Flash rappresenta un nuovo modello text-to-speech zero-shot che trasforma un decoder TTS autoregressivo pre-addestrato in un decoder a diffusione a blocchi, consentendo la generazione parallela di token all'interno dei blocchi e mantenendo la capacità di streaming. I ricercatori hanno scoperto che l'uso ingenuo della decodifica a diffusione a blocchi su token vocali discreti influisce negativamente sulla qualità a causa di una distribuzione a coda lunga che favorisce i token ad alta frequenza. Per superare questo problema senza modificare l'architettura, hanno proposto il prior-calibrated scoring (che sottrae la distribuzione marginale dei token a livello di blocco) e uno schema di decodifica anticipata (che termina adattivamente le iterazioni in base alla confidenza calibrata). Su benchmark standard zero-shot TTS, Chatterbox-Flash offre una sintesi ad alta fedeltà paragonabile a modelli autoregressivi e non autoregressivi robusti, consentendo anche l'inferenza in streaming. Il documento è disponibile su arXiv con riferimento 2605.30748.
Fatti principali
- Chatterbox-Flash è un modello TTS zero-shot.
- Affina un decoder TTS autoregressivo pre-addestrato in un decoder a diffusione a blocchi.
- Consente la generazione parallela di token all'interno dei blocchi.
- Mantiene la capacità di streaming blocco per blocco.
- La diffusione a blocchi ingenua degrada la qualità a causa della distribuzione a coda lunga dei token.
- Introduce il prior-calibrated scoring e uno schema di decodifica anticipata.
- Raggiunge una sintesi ad alta fedeltà paragonabile a forti baseline.
- Documento disponibile su arXiv (2605.30748).
Entità
Istituzioni
- arXiv