L'addestramento consapevole della confidenza migliora il riconoscimento vocale medico per le lingue dravidiche

other · 2026-04-24

Un nuovo framework di addestramento consapevole della confidenza migliora il riconoscimento automatico del parlato (ASR) per le lingue dravidiche a basse risorse Telugu e Kannada in ambito medico. L'approccio integra parlato reale e sintetico tramite un meccanismo di confidenza ibrido che combina metriche statiche di similarità percettiva/acustica con l'entropia dinamica del modello. Due strategie di aggregazione—pesi fissi e pesi apprendibili—guidano la pesatura dei campioni durante l'addestramento. La valutazione su dataset medici con registrazioni reali e parlato generato da TTS, più un modello linguistico KenLM a 5-grammi per la correzione post-decodifica, mostra miglioramenti delle prestazioni.

Fatti principali

Focus sulle lingue Telugu e Kannada
ASR in ambito medico
Meccanismo di confidenza ibrido con metriche statiche e dinamiche
Strategie di aggregazione a pesi fissi e pesi apprendibili
Valutazione su parlato reale e sintetico generato da TTS
Modello linguistico KenLM a 5-grammi per la correzione post-decodifica
Affronta la scarsità di dati annotati e la complessità morfologica
Il framework proposto supera il fine-tuning diretto

Entità

—

Fonti

arXiv cs.AI — 2026-04-23