Chatterbox-Flash: TTS Zero-Shot con Diffusione a Blocchi

ai-technology · 2026-06-01

Chatterbox-Flash rappresenta un nuovo modello text-to-speech zero-shot che trasforma un decoder TTS autoregressivo pre-addestrato in un decoder a diffusione a blocchi, consentendo la generazione parallela di token all'interno dei blocchi e mantenendo la capacità di streaming. I ricercatori hanno scoperto che l'uso ingenuo della decodifica a diffusione a blocchi su token vocali discreti influisce negativamente sulla qualità a causa di una distribuzione a coda lunga che favorisce i token ad alta frequenza. Per superare questo problema senza modificare l'architettura, hanno proposto il prior-calibrated scoring (che sottrae la distribuzione marginale dei token a livello di blocco) e uno schema di decodifica anticipata (che termina adattivamente le iterazioni in base alla confidenza calibrata). Su benchmark standard zero-shot TTS, Chatterbox-Flash offre una sintesi ad alta fedeltà paragonabile a modelli autoregressivi e non autoregressivi robusti, consentendo anche l'inferenza in streaming. Il documento è disponibile su arXiv con riferimento 2605.30748.

Fatti principali

Chatterbox-Flash è un modello TTS zero-shot.
Affina un decoder TTS autoregressivo pre-addestrato in un decoder a diffusione a blocchi.
Consente la generazione parallela di token all'interno dei blocchi.
Mantiene la capacità di streaming blocco per blocco.
La diffusione a blocchi ingenua degrada la qualità a causa della distribuzione a coda lunga dei token.
Introduce il prior-calibrated scoring e uno schema di decodifica anticipata.
Raggiunge una sintesi ad alta fedeltà paragonabile a forti baseline.
Documento disponibile su arXiv (2605.30748).

Chatterbox-Flash: TTS Zero-Shot con Diffusione a Blocchi

Fatti principali

Entità

Istituzioni

Fonti