ARTFEED — Contemporary Art Intelligence

PilotTTS: Sistema TTS Leggero Addestrato su 200K Ore con Strumenti Open-Source

other · 2026-05-27

PilotTTS è stato presentato dai ricercatori come un efficiente sistema text-to-speech autoregressivo che offre risultati competitivi con soli 200K ore di dati, tutti elaborati utilizzando strumenti open-source. Il design presenta un'architettura snella e una meticolosa ingegneria dei dati, che include una pipeline multistadio riproducibile per valutare la qualità, annotare le etichette e filtrare i dati. Un notevole progresso è l'implementazione del condizionamento basato su Q-Former, che separa l'identità del parlante dallo stile vocale attraverso un addestramento accoppiato tra campioni. All'interno di un unico framework, PilotTTS facilita il voice cloning zero-shot, la sintesi emotiva in 11 categorie e la sintesi paralinguistica in 4 categorie. Questa iniziativa mira a facilitare il lavoro dei team di ricerca con risorse limitate, riducendo la dipendenza da ampi set di dati proprietari e architetture complesse.

Fatti principali

  • PilotTTS è un sistema TTS autoregressivo leggero.
  • Addestrato su 200K ore di dati.
  • Tutta l'elaborazione dei dati utilizza strumenti open-source.
  • Include una pipeline di elaborazione dati multistadio riproducibile.
  • Utilizza il condizionamento basato su Q-Former per disaccoppiare l'identità del parlante dallo stile vocale.
  • Supporta il voice cloning zero-shot.
  • Supporta la sintesi emotiva (11 categorie).
  • Supporta la sintesi paralinguistica (4 categorie).

Entità

Fonti