ARTFEED — Contemporary Art Intelligence

Josh Talks sviluppa un'IA conversazionale Hindi full-duplex

ai-technology · 2026-04-29

In Josh Talks, i ricercatori hanno presentato Human-1, il primo sistema di dialogo parlato full-duplex aperto e riproducibile, specificamente per l'hindi. Hanno adattato l'architettura Moshi esistente sostituendo il suo tokenizer inglese con uno progettato per l'hindi e regolando alcuni parametri, mantenendo gli elementi audio pre-addestrati. Il processo di addestramento ha coinvolto 26.000 ore di conversazioni reali e spontanee di 14.695 parlanti attraverso vari canali, aiutando il sistema ad apprendere i turni di parola e la sovrapposizione del discorso. Hanno utilizzato un metodo di addestramento in due fasi: prima un pre-addestramento esteso, poi un fine-tuning con 1.000 ore di dati di chat. Questo sistema imita efficacemente caratteristiche naturali della conversazione come le interruzioni, che non sono state approfonditamente esplorate nelle lingue indiane. Le valutazioni includevano prompt per continuazioni di dialogo.

Fatti principali

  • Human-1 è un sistema di dialogo parlato full-duplex per l'hindi.
  • Adatta l'architettura Moshi con un tokenizer hindi personalizzato.
  • Dati di addestramento: 26.000 ore da 14.695 parlanti.
  • Addestramento in due fasi: pre-addestramento poi fine-tuning su 1.000 ore.
  • Modella interruzioni, sovrapposizioni e backchannel.
  • Primo sistema aperto e riproducibile del suo genere per l'hindi.
  • Parametri del vocabolario di testo reimpostati; componenti audio mantenuti.
  • Valutazione tramite continuazioni di dialogo su prompt.

Entità

Istituzioni

  • Josh Talks

Fonti