PilotTTS: Sistema TTS Leggero Addestrato su 200K Ore con Strumenti Open-Source

other · 2026-05-27

PilotTTS è stato presentato dai ricercatori come un efficiente sistema text-to-speech autoregressivo che offre risultati competitivi con soli 200K ore di dati, tutti elaborati utilizzando strumenti open-source. Il design presenta un'architettura snella e una meticolosa ingegneria dei dati, che include una pipeline multistadio riproducibile per valutare la qualità, annotare le etichette e filtrare i dati. Un notevole progresso è l'implementazione del condizionamento basato su Q-Former, che separa l'identità del parlante dallo stile vocale attraverso un addestramento accoppiato tra campioni. All'interno di un unico framework, PilotTTS facilita il voice cloning zero-shot, la sintesi emotiva in 11 categorie e la sintesi paralinguistica in 4 categorie. Questa iniziativa mira a facilitare il lavoro dei team di ricerca con risorse limitate, riducendo la dipendenza da ampi set di dati proprietari e architetture complesse.

Fatti principali

PilotTTS è un sistema TTS autoregressivo leggero.
Addestrato su 200K ore di dati.
Tutta l'elaborazione dei dati utilizza strumenti open-source.
Include una pipeline di elaborazione dati multistadio riproducibile.
Utilizza il condizionamento basato su Q-Former per disaccoppiare l'identità del parlante dallo stile vocale.
Supporta il voice cloning zero-shot.
Supporta la sintesi emotiva (11 categorie).
Supporta la sintesi paralinguistica (4 categorie).

Entità

—

Fonti

arXiv cs.AI — 2026-05-27