Nuovi benchmark vocali coreani per la valutazione dei modelli linguistici vocali
I ricercatori propongono KVoiceBench, KOpenAudioBench e KMMAU, tre benchmark vocali coreani guidati da agenti per valutare i modelli linguistici vocali (SpeechLM). L'attuale valutazione degli SpeechLM è incentrata sull'inglese e il trasferimento diretto tramite ASR, traduzione e TTS corrompe le caratteristiche specifiche della lingua. I framework trasferiscono gli SpokenQA inglesi in coreano e convertono i corpora ASR coreani in benchmark di comprensione audio. I benchmark mirano a superare le limitazioni nella valutazione delle capacità linguistiche multilingue.
Fatti principali
- Proposti tre benchmark vocali coreani: KVoiceBench, KOpenAudioBench, KMMAU
- I benchmark sono guidati da agenti per valutare gli SpeechLM
- L'attuale valutazione degli SpeechLM è fortemente incentrata sull'inglese
- Il trasferimento diretto di benchmark tramite ASR, traduzione, normalizzazione, TTS corrompe le istruzioni specifiche della lingua
- Proposti due framework di costruzione di benchmark con agenti umani
- Un framework trasferisce i benchmark SpokenQA dalla lingua di partenza a quella di destinazione
- L'altro framework converte i corpora ASR della lingua di destinazione in benchmark di comprensione audio
- I framework utilizzano trascrizioni e metadati del parlante
Entità
—