Gelina: Sintesi Unificata di Discorso e Gesti tramite Predizione di Token Intervallati
Un team di ricercatori ha presentato Gelina, un framework completo che genera simultaneamente discorso e gesti di accompagnamento a partire da testo, utilizzando sequenze di token intervallati all'interno di un'architettura autoregressiva discreta con decodificatori specifici per modalità. A differenza degli approcci tradizionali che producono discorso e gesti uno dopo l'altro, Gelina garantisce l'allineamento sia nella sincronia che nella prosodia. Il sistema è in grado di clonare più parlanti e stili e consente la sintesi di soli gesti derivati da input vocali. I risultati della valutazione indicano che Gelina raggiunge una qualità vocale competitiva e migliora la generazione di gesti rispetto alle baseline unimodali. Questa ricerca è stata pubblicata su arXiv (2510.12834v4) e segna un progresso verso interazioni uomo-computer più intuitive.
Fatti principali
- 1. Gelina sintetizza congiuntamente discorso e gesti co-verbali a partire da testo.
- 2. Utilizza sequenze di token intervallati in un'architettura autoregressiva discreta.
- 3. Include decodificatori specifici per modalità.
- 4. Supporta la clonazione multi-parlante e multi-stile.
- 5. Consente la sintesi di soli gesti a partire da input vocali.
- 6. Dimostra qualità vocale competitiva e migliore generazione di gesti.
- 7. Pubblicato su arXiv con identificativo 2510.12834v4.
- 8. Affronta l'allineamento di sincronia e prosodia nella comunicazione multimodale.
Entità
Istituzioni
- arXiv