Framework di Mappatura Vocale per la Valutazione della Qualità TTS
Uno studio recente pubblicato su arXiv presenta la mappatura vocale come metodo per valutare la qualità della sintesi text-to-speech (TTS). I ricercatori hanno valutato sei modelli TTS—Merlin, Tacotron 2, Transformer TTS, FastSpeech 2, Glow-TTS e VITS—utilizzando metriche come il fattore di cresta, il bilanciamento dello spettro e l'eminenza del picco cepstrale (CPPs). I risultati rivelano che l'estensione vocale funge da indicatore cruciale dell'efficacia di un modello, con VITS che mostra l'estensione più ampia. Sebbene Glow-TTS abbia un'estensione vocale limitata, eccelle nella fonazione morbida grazie al suo maggiore bilanciamento dello spettro. CPPs tra 7-8 dB indicano una qualità vocale naturale, mentre valori superiori a 10 dB producono un parlato robotico. Ciò sottolinea l'importanza della mappatura vocale nella valutazione dello sforzo vocale e della gestione della dinamica e dell'espressività vocale da parte dei sistemi TTS.
Fatti principali
- Lo studio indaga la mappatura vocale come framework di valutazione per la qualità della sintesi TTS.
- Sei modelli TTS analizzati: Merlin, Tacotron 2, Transformer TTS, FastSpeech 2, Glow-TTS, VITS.
- Metriche utilizzate: fattore di cresta, bilanciamento dello spettro, eminenza del picco cepstrale (CPPs).
- L'estensione vocale è l'indicatore principale della capacità del modello; VITS ha l'estensione più ampia.
- Glow-TTS mostra una fonazione morbida superiore con un maggiore bilanciamento dello spettro nonostante l'estensione vocale limitata.
- CPPs 7-8 dB indicano qualità vocale naturale; CPPs >10 dB suonano robotici.
- I risultati sottolineano la necessità della mappatura vocale per valutare lo sforzo vocale e la dinamica.
- Pubblicato su arXiv con ID 2605.00861.
Entità
Istituzioni
- arXiv