ARTFEED — Contemporary Art Intelligence

Nuovi benchmark vocali coreani per la valutazione dei modelli linguistici vocali

ai-technology · 2026-05-28

I ricercatori propongono KVoiceBench, KOpenAudioBench e KMMAU, tre benchmark vocali coreani guidati da agenti per valutare i modelli linguistici vocali (SpeechLM). L'attuale valutazione degli SpeechLM è incentrata sull'inglese e il trasferimento diretto tramite ASR, traduzione e TTS corrompe le caratteristiche specifiche della lingua. I framework trasferiscono gli SpokenQA inglesi in coreano e convertono i corpora ASR coreani in benchmark di comprensione audio. I benchmark mirano a superare le limitazioni nella valutazione delle capacità linguistiche multilingue.

Fatti principali

  • Proposti tre benchmark vocali coreani: KVoiceBench, KOpenAudioBench, KMMAU
  • I benchmark sono guidati da agenti per valutare gli SpeechLM
  • L'attuale valutazione degli SpeechLM è fortemente incentrata sull'inglese
  • Il trasferimento diretto di benchmark tramite ASR, traduzione, normalizzazione, TTS corrompe le istruzioni specifiche della lingua
  • Proposti due framework di costruzione di benchmark con agenti umani
  • Un framework trasferisce i benchmark SpokenQA dalla lingua di partenza a quella di destinazione
  • L'altro framework converte i corpora ASR della lingua di destinazione in benchmark di comprensione audio
  • I framework utilizzano trascrizioni e metadati del parlante

Entità

Fonti