Raon-Speech: un modello linguistico vocale da 9 miliardi di parametri per inglese e coreano
Raon-Speech è un modello linguistico vocale (SpeechLM) con 9 miliardi di parametri, progettato sia per l'inglese che per il coreano, ed è in grado di comprendere, generare e rispondere al parlato. Converte un LLM pre-addestrato in uno SpeechLM mantenendo robuste funzionalità testuali. L'addestramento ha coinvolto 1,38 milioni di ore di dati vocali e testuali accuratamente selezionati, eseguito in tre fasi: allineamento dei moduli vocali, pre-addestramento end-to-end con distillazione della conoscenza e ottimizzazione post-addestramento tramite preferenze multi-task. Una funzionalità aggiuntiva, Raon-SpeechChat, facilita conversazioni naturali in tempo reale in modalità full-duplex. In confronti su 42 benchmark per inglese e coreano, Raon-Speech ha superato altri otto recenti modelli audio di base, tra cui Qwen2.5-Omni e Fun-Audio-Cha. Il rapporto tecnico è disponibile su arXiv.
Fatti principali
- Raon-Speech è un modello linguistico vocale da 9 miliardi di parametri per inglese e coreano.
- Gestisce comprensione, risposta e generazione del parlato.
- Raon-SpeechChat è un'estensione full-duplex per conversazioni in tempo reale.
- Il modello preserva forti capacità testuali da un LLM pre-addestrato.
- Addestrato su 1,38 milioni di ore di dati vocali e testuali curati.
- Fasi di addestramento: allineamento dei moduli vocali, pre-addestramento end-to-end con distillazione della conoscenza, ottimizzazione delle preferenze multi-task.
- Valutato su 42 benchmark inglesi e coreani.
- Ha superato otto modelli simili tra cui Qwen2.5-Omni e Fun-Audio-Cha.
Entità
Istituzioni
- arXiv