Raon-Speech: un modello linguistico vocale da 9 miliardi di parametri per inglese e coreano

ai-technology · 2026-05-26

Raon-Speech è un modello linguistico vocale (SpeechLM) con 9 miliardi di parametri, progettato sia per l'inglese che per il coreano, ed è in grado di comprendere, generare e rispondere al parlato. Converte un LLM pre-addestrato in uno SpeechLM mantenendo robuste funzionalità testuali. L'addestramento ha coinvolto 1,38 milioni di ore di dati vocali e testuali accuratamente selezionati, eseguito in tre fasi: allineamento dei moduli vocali, pre-addestramento end-to-end con distillazione della conoscenza e ottimizzazione post-addestramento tramite preferenze multi-task. Una funzionalità aggiuntiva, Raon-SpeechChat, facilita conversazioni naturali in tempo reale in modalità full-duplex. In confronti su 42 benchmark per inglese e coreano, Raon-Speech ha superato altri otto recenti modelli audio di base, tra cui Qwen2.5-Omni e Fun-Audio-Cha. Il rapporto tecnico è disponibile su arXiv.

Fatti principali

Raon-Speech è un modello linguistico vocale da 9 miliardi di parametri per inglese e coreano.
Gestisce comprensione, risposta e generazione del parlato.
Raon-SpeechChat è un'estensione full-duplex per conversazioni in tempo reale.
Il modello preserva forti capacità testuali da un LLM pre-addestrato.
Addestrato su 1,38 milioni di ore di dati vocali e testuali curati.
Fasi di addestramento: allineamento dei moduli vocali, pre-addestramento end-to-end con distillazione della conoscenza, ottimizzazione delle preferenze multi-task.
Valutato su 42 benchmark inglesi e coreani.
Ha superato otto modelli simili tra cui Qwen2.5-Omni e Fun-Audio-Cha.

Raon-Speech: un modello linguistico vocale da 9 miliardi di parametri per inglese e coreano

Fatti principali

Entità

Istituzioni

Fonti