VITA-QinYu: Modello Linguistico Parlato Espressivo per l'Interpretazione di Ruoli e il Canto
VITA-QinYu è presentato come il primo modello linguistico parlato end-to-end espressivo in grado di interpretare ruoli e generare canto. Utilizza un paradigma ibrido testo-parola con token audio multi-codebook per una rappresentazione paralinguistica più ricca. Una pipeline di dati ha sintetizzato 15.8K ore di dati di addestramento. Il modello supera i concorrenti di 7 punti percentuali nei benchmark oggettivi di interpretazione dei ruoli.
Fatti principali
- VITA-QinYu è il primo modello linguistico parlato end-to-end espressivo per l'interpretazione di ruoli e il canto.
- Adotta un paradigma ibrido testo-parola con token audio multi-codebook.
- Una pipeline di generazione dati ha sintetizzato 15.8K ore di dati di addestramento.
- Il modello supera gli SLM concorrenti di 7 punti percentuali nei benchmark oggettivi di interpretazione dei ruoli.
- L'espressività del parlato umano include elementi di personalità, umore e performance.
- Il modello estende la modellazione interleaved testo-audio.
- Il design mantiene una chiara separazione tra le modalità per evitare interferenze.
- L'articolo è pubblicato su arXiv con ID 2605.06765.
Entità
Istituzioni
- arXiv