Metodi a livello di enunciato migliorano l'affidabilità del riconoscimento vocale per il linguaggio infantile
Un nuovo studio da arXiv (2604.19801) introduce due metodi a livello di enunciato per identificare output affidabili del riconoscimento automatico del parlato (ASR) per il linguaggio infantile, mirando separatamente a materiale letto e dialogato. Valutati su dataset in inglese e olandese utilizzando modelli di base e finetunati, la strategia migliore raggiunge una precisione superiore al 97,4% per entrambe le lingue e tipologie di parlato. L'approccio ottimale può selezionare automaticamente dal 21,0% al 55,9% dei dataset di parlato dialogato o letto, mitigando gli alti tassi di errore dell'ASR in applicazioni come l'apprendimento delle lingue e l'acquisizione dell'alfabetizzazione.
Fatti principali
- Il paper arXiv 2604.19801 propone la selezione dell'affidabilità dell'ASR a livello di enunciato per il linguaggio infantile.
- Due metodi: uno per il parlato letto, uno per il parlato dialogato.
- Valutati su dataset in inglese e olandese con modelli di base e finetunati.
- La migliore strategia ha una precisione > 97,4% per entrambe le lingue e tipologie di parlato.
- La strategia ottimale seleziona dal 21,0% al 55,9% dei dataset di parlato dialogato/letto.
- Mira a migliorare le applicazioni dipendenti dall'ASR per bambini.
- Gli alti tassi di errore dell'ASR limitano l'efficacia nell'apprendimento delle lingue e nell'alfabetizzazione.
- La selezione a livello di enunciato identifica in anticipo output ASR affidabili.
Entità
Istituzioni
- arXiv