La distillazione on-policy potenzia modelli ASR compatti con dati limitati

other · 2026-05-28

I ricercatori hanno introdotto Ark-ASR, un modello linguistico con 0,6 miliardi di parametri, condizionato dall'audio e addestrato su sole 100.000 ore di parlato. Questo modello impiega la distillazione on-policy dal più robusto insegnante Qwen-ASR. Ark-ASR supera costantemente le prestazioni del solo fine-tuning supervisionato e supera la baseline Qwen3-ASR-0.6B in quattro dei cinque benchmark ASR in mandarino e inglese. In particolare, utilizza 100.000 ore di parlato, mentre il codificatore Qwen3-Omni AuT si basa su 20 milioni di ore. Sebbene il modello più grande Qwen3-ASR-1.7B rimanga superiore, questi risultati indicano che l'addestramento on-policy guidato dall'insegnante può migliorare significativamente i modelli ASR compatti con un investimento audio molto inferiore.

Fatti principali

Ark-ASR è un modello linguistico condizionato dall'audio con 0,6 miliardi di parametri.
Addestrato con 100.000 ore di parlato.
Utilizza la distillazione on-policy da un insegnante Qwen-ASR.
Supera la baseline Qwen3-ASR-0.6B in quattro dei cinque set di valutazione.
Confrontato con 20 milioni di ore per il codificatore Qwen3-Omni AuT.
Qwen3-ASR-1.7B rimane più forte.
Il metodo riduce il divario per i modelli ASR compatti con budget audio limitato.
Valutato su benchmark ASR in mandarino e inglese.

Entità

—

Fonti

arXiv cs.AI — 2026-05-28