L'addestramento consapevole della confidenza migliora il riconoscimento vocale medico per le lingue dravidiche
Un nuovo framework di addestramento consapevole della confidenza migliora il riconoscimento automatico del parlato (ASR) per le lingue dravidiche a basse risorse Telugu e Kannada in ambito medico. L'approccio integra parlato reale e sintetico tramite un meccanismo di confidenza ibrido che combina metriche statiche di similarità percettiva/acustica con l'entropia dinamica del modello. Due strategie di aggregazione—pesi fissi e pesi apprendibili—guidano la pesatura dei campioni durante l'addestramento. La valutazione su dataset medici con registrazioni reali e parlato generato da TTS, più un modello linguistico KenLM a 5-grammi per la correzione post-decodifica, mostra miglioramenti delle prestazioni.
Fatti principali
- Focus sulle lingue Telugu e Kannada
- ASR in ambito medico
- Meccanismo di confidenza ibrido con metriche statiche e dinamiche
- Strategie di aggregazione a pesi fissi e pesi apprendibili
- Valutazione su parlato reale e sintetico generato da TTS
- Modello linguistico KenLM a 5-grammi per la correzione post-decodifica
- Affronta la scarsità di dati annotati e la complessità morfologica
- Il framework proposto supera il fine-tuning diretto
Entità
—