Mega-ASR: Scalare la Simulazione Acustica nel Mondo Reale per un Riconoscimento Vocale Robusto
I ricercatori propongono Mega-ASR, un framework unificato per il riconoscimento automatico del parlato (ASR) in ambienti reali, affrontando il collo di bottiglia della robustezza acustica dove i modelli falliscono sotto distorsioni compositive severe. Il sistema combina la costruzione scalabile di dati composti con un'ottimizzazione progressiva acustico-semantica. Un nuovo dataset, Voices-in-the-Wild-2M, copre 7 fenomeni acustici classici e 54 scenari composti fisicamente plausibili. L'addestramento utilizza il Fine-Tuning Supervisionato Progressivo Acustico-Semantico e l'Ottimizzazione delle Politiche a Doppia Granularità basata su WER. Su benchmark in condizioni avverse, Mega-ASR raggiunge il 45,69% contro il 54,01% su VOiCES R4-B-F e il 21,49% contro il 29,34% su NOIZEUS S, superando i precedenti sistemi all'avanguardia.
Fatti principali
- Mega-ASR è un framework ASR unificato per ambienti reali
- Affronta il collo di bottiglia della robustezza acustica con distorsioni compositive severe
- Il dataset Voices-in-the-Wild-2M copre 7 fenomeni acustici classici e 54 scenari composti
- Utilizza il Fine-Tuning Supervisionato Progressivo Acustico-Semantico
- Utilizza l'Ottimizzazione delle Politiche a Doppia Granularità basata su WER
- Raggiunge il 45,69% contro il 54,01% su VOiCES R4-B-F
- Raggiunge il 21,49% contro il 29,34% su NOIZEUS S
- Supera i precedenti sistemi all'avanguardia su benchmark ASR in condizioni avverse
Entità
—