Nuovo Framework ASR Unifica il Riconoscimento Vocale Offline e in Streaming con Regolarizzazione della Coerenza

ai-technology · 2026-04-22

È stato sviluppato un framework unificato per il riconoscimento vocale automatico basato su modelli Transducer, volto a risolvere la sfida di addestrare un singolo modello che funzioni efficacemente sia in ambienti offline che in streaming a bassa latenza. L'approccio incorpora un'attenzione limitata a blocchi con contesto destro e convoluzioni dinamiche a blocchi per supportare entrambe le modalità di decodifica all'interno di un unico modello. Per ridurre ulteriormente le differenze di prestazioni tra le impostazioni offline e in streaming, i ricercatori hanno introdotto una regolarizzazione della coerenza modale per RNNT, implementata in modo efficiente utilizzando Triton. Questo metodo MCR-RNNT incoraggia l'accordo tra le diverse modalità di addestramento. I risultati sperimentali dimostrano che il framework proposto migliora l'accuratezza in streaming a bassa latenza mantenendo le prestazioni offline. Il sistema scala efficacemente anche a dimensioni di modello maggiori e a dataset di addestramento più ampi. Sia il framework ASR Unificato che un checkpoint del modello in inglese sono stati resi disponibili pubblicamente come risorse open-source. La ricerca è stata pubblicata su arXiv con l'identificatore 2604.19079.

Fatti principali

Il framework ASR unificato supporta sia la decodifica offline che in streaming all'interno di un singolo modello
Utilizza un'attenzione limitata a blocchi con contesto destro e convoluzioni dinamiche a blocchi
Introduce la regolarizzazione della coerenza modale per RNNT (MCR-RNNT)
Implementato in modo efficiente utilizzando Triton
Migliora l'accuratezza in streaming a bassa latenza preservando le prestazioni offline
Scala a dimensioni di modello maggiori e a dataset di addestramento più ampi
Il framework e il checkpoint del modello in inglese sono open-source
La ricerca è stata pubblicata su arXiv con l'identificatore 2604.19079

Nuovo Framework ASR Unifica il Riconoscimento Vocale Offline e in Streaming con Regolarizzazione della Coerenza

Fatti principali

Entità

Istituzioni

Fonti