Nuovo Benchmark Valuta i Sistemi ASR Commerciali sul Parlato con Code-Switching

ai-technology · 2026-05-20

Un nuovo articolo di ricerca presenta un benchmark volto a valutare i sistemi commerciali di riconoscimento automatico del parlato (ASR) specificamente per il parlato con code-switching. Comprende quattro combinazioni linguistiche: arabo egiziano–inglese, arabo saudita (Najdi/Hijazi)–inglese, persiano (farsi)–inglese e tedesco–inglese. Ogni dataset contiene 300 campioni, curati attraverso un processo in due fasi: inizialmente, un filtro euristico valuta le trascrizioni basandosi su cinque indicatori strutturali di code-switching, seguito da un ensemble di GPT-4o e Gemini 1.5 Pro che valuta i candidati su sei dimensioni linguistiche. Questo approccio riduce significativamente i costi di scoring LLM di circa il 91% rispetto ai metodi di scoring completi. La ricerca si concentra sul fenomeno spesso trascurato del code-switching, in cui i parlanti cambiano lingua all'interno di un singolo enunciato, e critica i benchmark esistenti che valutano solo audio monolingue pulito con una singola metrica Word Error Rate (WER).

Fatti principali

Il benchmark valuta cinque fornitori commerciali di ASR.
Copre quattro coppie linguistiche: arabo egiziano–inglese, arabo saudita–inglese, persiano–inglese, tedesco–inglese.
Ogni dataset ha 300 campioni.
Pipeline in due fasi: filtro euristico poi ensemble LLM (GPT-4o e Gemini 1.5 Pro).
La pipeline riduce i costi di scoring LLM di circa il 91%.
Il code-switching è l'alternanza tra due lingue in un unico enunciato.
I benchmark esistenti utilizzano audio monolingue pulito e un singolo WER.
Pubblicato su arXiv con ID 2605.19069.

Nuovo Benchmark Valuta i Sistemi ASR Commerciali sul Parlato con Code-Switching

Fatti principali

Entità

Istituzioni

Fonti