ARTFEED — Contemporary Art Intelligence

VITA-QinYu: Modello Linguistico Parlato Espressivo per l'Interpretazione di Ruoli e il Canto

ai-technology · 2026-05-11

VITA-QinYu è presentato come il primo modello linguistico parlato end-to-end espressivo in grado di interpretare ruoli e generare canto. Utilizza un paradigma ibrido testo-parola con token audio multi-codebook per una rappresentazione paralinguistica più ricca. Una pipeline di dati ha sintetizzato 15.8K ore di dati di addestramento. Il modello supera i concorrenti di 7 punti percentuali nei benchmark oggettivi di interpretazione dei ruoli.

Fatti principali

  • VITA-QinYu è il primo modello linguistico parlato end-to-end espressivo per l'interpretazione di ruoli e il canto.
  • Adotta un paradigma ibrido testo-parola con token audio multi-codebook.
  • Una pipeline di generazione dati ha sintetizzato 15.8K ore di dati di addestramento.
  • Il modello supera gli SLM concorrenti di 7 punti percentuali nei benchmark oggettivi di interpretazione dei ruoli.
  • L'espressività del parlato umano include elementi di personalità, umore e performance.
  • Il modello estende la modellazione interleaved testo-audio.
  • Il design mantiene una chiara separazione tra le modalità per evitare interferenze.
  • L'articolo è pubblicato su arXiv con ID 2605.06765.

Entità

Istituzioni

  • arXiv

Fonti