Nuovi benchmark vocali coreani per la valutazione dei modelli linguistici vocali

ai-technology · 2026-05-28

I ricercatori propongono KVoiceBench, KOpenAudioBench e KMMAU, tre benchmark vocali coreani guidati da agenti per valutare i modelli linguistici vocali (SpeechLM). L'attuale valutazione degli SpeechLM è incentrata sull'inglese e il trasferimento diretto tramite ASR, traduzione e TTS corrompe le caratteristiche specifiche della lingua. I framework trasferiscono gli SpokenQA inglesi in coreano e convertono i corpora ASR coreani in benchmark di comprensione audio. I benchmark mirano a superare le limitazioni nella valutazione delle capacità linguistiche multilingue.

Fatti principali

Proposti tre benchmark vocali coreani: KVoiceBench, KOpenAudioBench, KMMAU
I benchmark sono guidati da agenti per valutare gli SpeechLM
L'attuale valutazione degli SpeechLM è fortemente incentrata sull'inglese
Il trasferimento diretto di benchmark tramite ASR, traduzione, normalizzazione, TTS corrompe le istruzioni specifiche della lingua
Proposti due framework di costruzione di benchmark con agenti umani
Un framework trasferisce i benchmark SpokenQA dalla lingua di partenza a quella di destinazione
L'altro framework converte i corpora ASR della lingua di destinazione in benchmark di comprensione audio
I framework utilizzano trascrizioni e metadati del parlante

Entità

—

Fonti

arXiv cs.AI — 2026-05-28