Mega-ASR: Scalare la Simulazione Acustica nel Mondo Reale per un Riconoscimento Vocale Robusto

ai-technology · 2026-05-20

I ricercatori propongono Mega-ASR, un framework unificato per il riconoscimento automatico del parlato (ASR) in ambienti reali, affrontando il collo di bottiglia della robustezza acustica dove i modelli falliscono sotto distorsioni compositive severe. Il sistema combina la costruzione scalabile di dati composti con un'ottimizzazione progressiva acustico-semantica. Un nuovo dataset, Voices-in-the-Wild-2M, copre 7 fenomeni acustici classici e 54 scenari composti fisicamente plausibili. L'addestramento utilizza il Fine-Tuning Supervisionato Progressivo Acustico-Semantico e l'Ottimizzazione delle Politiche a Doppia Granularità basata su WER. Su benchmark in condizioni avverse, Mega-ASR raggiunge il 45,69% contro il 54,01% su VOiCES R4-B-F e il 21,49% contro il 29,34% su NOIZEUS S, superando i precedenti sistemi all'avanguardia.

Fatti principali

Mega-ASR è un framework ASR unificato per ambienti reali
Affronta il collo di bottiglia della robustezza acustica con distorsioni compositive severe
Il dataset Voices-in-the-Wild-2M copre 7 fenomeni acustici classici e 54 scenari composti
Utilizza il Fine-Tuning Supervisionato Progressivo Acustico-Semantico
Utilizza l'Ottimizzazione delle Politiche a Doppia Granularità basata su WER
Raggiunge il 45,69% contro il 54,01% su VOiCES R4-B-F
Raggiunge il 21,49% contro il 29,34% su NOIZEUS S
Supera i precedenti sistemi all'avanguardia su benchmark ASR in condizioni avverse

Entità

—

Fonti

arXiv cs.AI — 2026-05-20