UniSonate: Modello AI Unificato Genera Parlato, Musica ed Effetti Sonori dal Testo

ai-technology · 2026-04-27

I ricercatori hanno creato un nuovo framework chiamato UniSonate, che mira a semplificare il processo di generazione di parlato, musica ed effetti sonori utilizzando un'interfaccia in linguaggio naturale che non richiede un riferimento. Questo modello affronta la frammentazione nell'audio generativo, tipicamente suddiviso in compiti come text-to-speech (TTS), text-to-music (TTM) e text-to-audio (TTA), ciascuno con i propri controlli. UniSonate collega forme strutturate come parlato e musica con suoni più caotici, utilizzando una tecnica unica di iniezione dinamica di token. Ciò consente un controllo preciso sulla durata del suono all'interno di un Multimodal Diffusion Transformer (MM-DiT) guidato da fonemi e utilizza un approccio di apprendimento curricolare a più fasi. Lo studio è stato pubblicato su arXiv con l'ID 2604.22209.

Fatti principali

UniSonate è un framework unificato di flow-matching per la generazione audio.
Sintetizza parlato, musica ed effetti sonori da istruzioni testuali.
Il modello utilizza un meccanismo di iniezione dinamica di token per il controllo della durata.
Impiega un Multimodal Diffusion Transformer (MM-DiT) guidato da fonemi.
Il framework utilizza una strategia di apprendimento curricolare a più fasi.
Unifica i compiti TTS, TTM e TTA.
L'articolo è disponibile su arXiv (ID 2604.22209).
L'approccio è senza riferimento e utilizza istruzioni in linguaggio naturale.

UniSonate: Modello AI Unificato Genera Parlato, Musica ed Effetti Sonori dal Testo

Fatti principali

Entità

Istituzioni

Fonti