FormalASR: Riconoscimento vocale end-to-end dal cinese parlato al testo formale

ai-technology · 2026-05-20

FormalASR è una coppia di modelli end-to-end compatti (0,6B e 1,7B parametri) che trascrivono direttamente il cinese parlato in testo scritto formale, bypassando il tradizionale processo a due stadi ASR+LLM. I modelli sono ottimizzati da Qwen3-ASR mediante apprendimento supervisionato su due nuovi dataset: WenetSpeech-Formal e Speechio-Formal. Questi dataset sono stati costruiti riscrivendo trascrizioni informali in testo formale utilizzando LLM, seguite da filtraggio di qualità. Gli esperimenti mostrano che FormalASR raggiunge una riduzione relativa del tasso di errore di carattere (CER) fino al 37,4% rispetto alle baseline verbatim. L'approccio riduce la latenza e i costi di memoria, rendendolo adatto per l'implementazione su dispositivi. La ricerca è pubblicata su arXiv con identificativo 2605.19266.

Fatti principali

FormalASR è un modello end-to-end per la trascrizione dal cinese parlato al testo formale.
Due dimensioni del modello: 0,6B e 1,7B parametri.
Ottimizzato da Qwen3-ASR.
Due nuovi dataset: WenetSpeech-Formal e Speechio-Formal.
Dataset costruiti tramite riscrittura con LLM e filtraggio di qualità.
Fino al 37,4% di riduzione relativa del CER rispetto alle baseline verbatim.
Obiettivo di ridurre latenza e memoria per l'implementazione su dispositivi.
Pubblicato su arXiv:2605.19266.

FormalASR: Riconoscimento vocale end-to-end dal cinese parlato al testo formale

Fatti principali

Entità

Istituzioni

Fonti