Nuovo Framework ASR Unifica il Riconoscimento Vocale Offline e in Streaming con Regolarizzazione della Coerenza
È stato sviluppato un framework unificato per il riconoscimento vocale automatico basato su modelli Transducer, volto a risolvere la sfida di addestrare un singolo modello che funzioni efficacemente sia in ambienti offline che in streaming a bassa latenza. L'approccio incorpora un'attenzione limitata a blocchi con contesto destro e convoluzioni dinamiche a blocchi per supportare entrambe le modalità di decodifica all'interno di un unico modello. Per ridurre ulteriormente le differenze di prestazioni tra le impostazioni offline e in streaming, i ricercatori hanno introdotto una regolarizzazione della coerenza modale per RNNT, implementata in modo efficiente utilizzando Triton. Questo metodo MCR-RNNT incoraggia l'accordo tra le diverse modalità di addestramento. I risultati sperimentali dimostrano che il framework proposto migliora l'accuratezza in streaming a bassa latenza mantenendo le prestazioni offline. Il sistema scala efficacemente anche a dimensioni di modello maggiori e a dataset di addestramento più ampi. Sia il framework ASR Unificato che un checkpoint del modello in inglese sono stati resi disponibili pubblicamente come risorse open-source. La ricerca è stata pubblicata su arXiv con l'identificatore 2604.19079.
Fatti principali
- Il framework ASR unificato supporta sia la decodifica offline che in streaming all'interno di un singolo modello
- Utilizza un'attenzione limitata a blocchi con contesto destro e convoluzioni dinamiche a blocchi
- Introduce la regolarizzazione della coerenza modale per RNNT (MCR-RNNT)
- Implementato in modo efficiente utilizzando Triton
- Migliora l'accuratezza in streaming a bassa latenza preservando le prestazioni offline
- Scala a dimensioni di modello maggiori e a dataset di addestramento più ampi
- Il framework e il checkpoint del modello in inglese sono open-source
- La ricerca è stata pubblicata su arXiv con l'identificatore 2604.19079
Entità
Istituzioni
- arXiv