VITA-QinYu: Modello Linguistico Parlato Espressivo per l'Interpretazione di Ruoli e il Canto

ai-technology · 2026-05-11

VITA-QinYu è presentato come il primo modello linguistico parlato end-to-end espressivo in grado di interpretare ruoli e generare canto. Utilizza un paradigma ibrido testo-parola con token audio multi-codebook per una rappresentazione paralinguistica più ricca. Una pipeline di dati ha sintetizzato 15.8K ore di dati di addestramento. Il modello supera i concorrenti di 7 punti percentuali nei benchmark oggettivi di interpretazione dei ruoli.

Fatti principali

VITA-QinYu è il primo modello linguistico parlato end-to-end espressivo per l'interpretazione di ruoli e il canto.
Adotta un paradigma ibrido testo-parola con token audio multi-codebook.
Una pipeline di generazione dati ha sintetizzato 15.8K ore di dati di addestramento.
Il modello supera gli SLM concorrenti di 7 punti percentuali nei benchmark oggettivi di interpretazione dei ruoli.
L'espressività del parlato umano include elementi di personalità, umore e performance.
Il modello estende la modellazione interleaved testo-audio.
Il design mantiene una chiara separazione tra le modalità per evitare interferenze.
L'articolo è pubblicato su arXiv con ID 2605.06765.

VITA-QinYu: Modello Linguistico Parlato Espressivo per l'Interpretazione di Ruoli e il Canto

Fatti principali

Entità

Istituzioni

Fonti