Il benchmark Vividh-ASR svela il pregiudizio da studio nel riconoscimento vocale multilingue

other · 2026-05-14

Un fenomeno noto come pregiudizio da studio è stato scoperto nei modelli di riconoscimento vocale multilingue come Whisper, dove il fine-tuning su lingue con risorse limitate migliora la lettura del parlato ma danneggia le performance su audio spontaneo. Per affrontare questo problema, i ricercatori hanno sviluppato Vividh-ASR, un benchmark stratificato per complessità per hindi e malayalam, comprendente quattro categorie: studio, trasmissione, spontaneo e rumore sintetico. Un esame controllato della tempistica del tasso di apprendimento e della sequenza curricolare ha indicato che l'implementazione di aggiornamenti significativi dei parametri in fase iniziale migliora il Word Error Rate (WER) globale di 12 punti assoluti, con un curriculum dal difficile al facile che fornisce ulteriori miglioramenti per il parlato spontaneo. Queste intuizioni hanno portato alla creazione del reverse multi-stage fine-tuning (R-MFT), che consente a un modello Whisper da 244M di raggiungere o superare le prestazioni di modelli da 769M tradizionalmente ottimizzati. L'analisi tramite CKA e SVD ha indicato che i programmi di addestramento efficaci concentrano l'adattamento nel decoder mantenendo le rappresentazioni acustiche dell'encoder pre-addestrato. Questo benchmark e metodologia mirano a migliorare la resilienza dei sistemi ASR per le lingue indiche in contesti spontanei reali.

Fatti principali

Il pregiudizio da studio degrada le performance sul parlato spontaneo nei modelli ASR multilingue ottimizzati.
Vividh-ASR è un benchmark stratificato per complessità per hindi e malayalam su quattro livelli.
Aggiornamenti anticipati dei parametri migliorano il WER globale di 12 punti assoluti.
Il curriculum dal difficile al facile aggiunge guadagni per il parlato spontaneo.
Il reverse multi-stage fine-tuning (R-MFT) consente a un modello Whisper da 244M di eguagliare controparti da 769M.
L'analisi CKA e SVD mostra che l'adattamento si concentra nel decoder.
Lo studio si concentra sulle lingue indiche a basse risorse.
Il benchmark include un livello di rumore sintetico.

Entità

—

Fonti

arXiv cs.AI — 2026-05-14