Framework di Mappatura Vocale per la Valutazione della Qualità TTS

ai-technology · 2026-05-06

Uno studio recente pubblicato su arXiv presenta la mappatura vocale come metodo per valutare la qualità della sintesi text-to-speech (TTS). I ricercatori hanno valutato sei modelli TTS—Merlin, Tacotron 2, Transformer TTS, FastSpeech 2, Glow-TTS e VITS—utilizzando metriche come il fattore di cresta, il bilanciamento dello spettro e l'eminenza del picco cepstrale (CPPs). I risultati rivelano che l'estensione vocale funge da indicatore cruciale dell'efficacia di un modello, con VITS che mostra l'estensione più ampia. Sebbene Glow-TTS abbia un'estensione vocale limitata, eccelle nella fonazione morbida grazie al suo maggiore bilanciamento dello spettro. CPPs tra 7-8 dB indicano una qualità vocale naturale, mentre valori superiori a 10 dB producono un parlato robotico. Ciò sottolinea l'importanza della mappatura vocale nella valutazione dello sforzo vocale e della gestione della dinamica e dell'espressività vocale da parte dei sistemi TTS.

Fatti principali

Lo studio indaga la mappatura vocale come framework di valutazione per la qualità della sintesi TTS.
Sei modelli TTS analizzati: Merlin, Tacotron 2, Transformer TTS, FastSpeech 2, Glow-TTS, VITS.
Metriche utilizzate: fattore di cresta, bilanciamento dello spettro, eminenza del picco cepstrale (CPPs).
L'estensione vocale è l'indicatore principale della capacità del modello; VITS ha l'estensione più ampia.
Glow-TTS mostra una fonazione morbida superiore con un maggiore bilanciamento dello spettro nonostante l'estensione vocale limitata.
CPPs 7-8 dB indicano qualità vocale naturale; CPPs >10 dB suonano robotici.
I risultati sottolineano la necessità della mappatura vocale per valutare lo sforzo vocale e la dinamica.
Pubblicato su arXiv con ID 2605.00861.

Framework di Mappatura Vocale per la Valutazione della Qualità TTS

Fatti principali

Entità

Istituzioni

Fonti