La distillazione on-policy potenzia modelli ASR compatti con dati limitati
I ricercatori hanno introdotto Ark-ASR, un modello linguistico con 0,6 miliardi di parametri, condizionato dall'audio e addestrato su sole 100.000 ore di parlato. Questo modello impiega la distillazione on-policy dal più robusto insegnante Qwen-ASR. Ark-ASR supera costantemente le prestazioni del solo fine-tuning supervisionato e supera la baseline Qwen3-ASR-0.6B in quattro dei cinque benchmark ASR in mandarino e inglese. In particolare, utilizza 100.000 ore di parlato, mentre il codificatore Qwen3-Omni AuT si basa su 20 milioni di ore. Sebbene il modello più grande Qwen3-ASR-1.7B rimanga superiore, questi risultati indicano che l'addestramento on-policy guidato dall'insegnante può migliorare significativamente i modelli ASR compatti con un investimento audio molto inferiore.
Fatti principali
- Ark-ASR è un modello linguistico condizionato dall'audio con 0,6 miliardi di parametri.
- Addestrato con 100.000 ore di parlato.
- Utilizza la distillazione on-policy da un insegnante Qwen-ASR.
- Supera la baseline Qwen3-ASR-0.6B in quattro dei cinque set di valutazione.
- Confrontato con 20 milioni di ore per il codificatore Qwen3-Omni AuT.
- Qwen3-ASR-1.7B rimane più forte.
- Il metodo riduce il divario per i modelli ASR compatti con budget audio limitato.
- Valutato su benchmark ASR in mandarino e inglese.
Entità
—