PilotTTS: Sistema TTS Leggero Addestrato su 200K Ore con Strumenti Open-Source
PilotTTS è stato presentato dai ricercatori come un efficiente sistema text-to-speech autoregressivo che offre risultati competitivi con soli 200K ore di dati, tutti elaborati utilizzando strumenti open-source. Il design presenta un'architettura snella e una meticolosa ingegneria dei dati, che include una pipeline multistadio riproducibile per valutare la qualità, annotare le etichette e filtrare i dati. Un notevole progresso è l'implementazione del condizionamento basato su Q-Former, che separa l'identità del parlante dallo stile vocale attraverso un addestramento accoppiato tra campioni. All'interno di un unico framework, PilotTTS facilita il voice cloning zero-shot, la sintesi emotiva in 11 categorie e la sintesi paralinguistica in 4 categorie. Questa iniziativa mira a facilitare il lavoro dei team di ricerca con risorse limitate, riducendo la dipendenza da ampi set di dati proprietari e architetture complesse.
Fatti principali
- PilotTTS è un sistema TTS autoregressivo leggero.
- Addestrato su 200K ore di dati.
- Tutta l'elaborazione dei dati utilizza strumenti open-source.
- Include una pipeline di elaborazione dati multistadio riproducibile.
- Utilizza il condizionamento basato su Q-Former per disaccoppiare l'identità del parlante dallo stile vocale.
- Supporta il voice cloning zero-shot.
- Supporta la sintesi emotiva (11 categorie).
- Supporta la sintesi paralinguistica (4 categorie).
Entità
—