Nuovo Benchmark Valuta i Sistemi ASR Commerciali sul Parlato con Code-Switching
Un nuovo articolo di ricerca presenta un benchmark volto a valutare i sistemi commerciali di riconoscimento automatico del parlato (ASR) specificamente per il parlato con code-switching. Comprende quattro combinazioni linguistiche: arabo egiziano–inglese, arabo saudita (Najdi/Hijazi)–inglese, persiano (farsi)–inglese e tedesco–inglese. Ogni dataset contiene 300 campioni, curati attraverso un processo in due fasi: inizialmente, un filtro euristico valuta le trascrizioni basandosi su cinque indicatori strutturali di code-switching, seguito da un ensemble di GPT-4o e Gemini 1.5 Pro che valuta i candidati su sei dimensioni linguistiche. Questo approccio riduce significativamente i costi di scoring LLM di circa il 91% rispetto ai metodi di scoring completi. La ricerca si concentra sul fenomeno spesso trascurato del code-switching, in cui i parlanti cambiano lingua all'interno di un singolo enunciato, e critica i benchmark esistenti che valutano solo audio monolingue pulito con una singola metrica Word Error Rate (WER).
Fatti principali
- Il benchmark valuta cinque fornitori commerciali di ASR.
- Copre quattro coppie linguistiche: arabo egiziano–inglese, arabo saudita–inglese, persiano–inglese, tedesco–inglese.
- Ogni dataset ha 300 campioni.
- Pipeline in due fasi: filtro euristico poi ensemble LLM (GPT-4o e Gemini 1.5 Pro).
- La pipeline riduce i costi di scoring LLM di circa il 91%.
- Il code-switching è l'alternanza tra due lingue in un unico enunciato.
- I benchmark esistenti utilizzano audio monolingue pulito e un singolo WER.
- Pubblicato su arXiv con ID 2605.19069.
Entità
Istituzioni
- arXiv