I decoder LLM non amplificano il bias razziale nel riconoscimento vocale, secondo uno studio
Un recente studio pubblicato su arXiv (2604.21276) indaga la possibilità che i decoder basati su grandi modelli linguistici (LLM) nel riconoscimento vocale introducano o esacerbino il bias demografico. I ricercatori hanno valutato nove modelli appartenenti a tre tipologie architetturali: CTC (senza modello linguistico), encoder-decoder (con LM implicito) e basati su LLM (con decoder pre-addestrato esplicito). Hanno analizzato circa 43.000 enunciati dai dataset Common Voice 24 e Fair-Speech di Meta, che mitiga le confusioni lessicali. La ricerca si è concentrata su cinque fattori demografici: etnia, accento, genere, età e lingua madre. Risultati notevoli includono: i decoder LLM non hanno aumentato il bias razziale (Granite-8B ha mostrato la migliore equità etnica con un WER max/min di 2,28); Whisper ha manifestato gravi problemi di allucinazione con parlato con accento indiano, raggiungendo un tasso di inserzione del 9,62% a large-v3; e la compressione audio è stata collegata all'equità dell'accento. Questo studio mette in discussione le convinzioni esistenti sul bias degli LLM nel riconoscimento vocale.
Fatti principali
- Lo studio valuta nove modelli tra architetture CTC, encoder-decoder e basate su LLM
- Utilizza circa 43.000 enunciati dai dataset Common Voice 24 e Fair-Speech di Meta
- Esamina cinque assi demografici: etnia, accento, genere, età, lingua madre
- Granite-8B ha la migliore equità etnica con WER max/min = 2,28
- Whisper mostra allucinazioni patologiche sul parlato con accento indiano
- Whisper large-v3 presenta un picco non monotono del tasso di inserzione al 9,62%
- La compressione audio predice l'equità dell'accento
- I decoder LLM non amplificano il bias razziale su audio pulito
Entità
Istituzioni
- arXiv
- Meta