Gelina: Sintesi Unificata di Discorso e Gesti tramite Predizione di Token Intervallati

ai-technology · 2026-04-30

Un team di ricercatori ha presentato Gelina, un framework completo che genera simultaneamente discorso e gesti di accompagnamento a partire da testo, utilizzando sequenze di token intervallati all'interno di un'architettura autoregressiva discreta con decodificatori specifici per modalità. A differenza degli approcci tradizionali che producono discorso e gesti uno dopo l'altro, Gelina garantisce l'allineamento sia nella sincronia che nella prosodia. Il sistema è in grado di clonare più parlanti e stili e consente la sintesi di soli gesti derivati da input vocali. I risultati della valutazione indicano che Gelina raggiunge una qualità vocale competitiva e migliora la generazione di gesti rispetto alle baseline unimodali. Questa ricerca è stata pubblicata su arXiv (2510.12834v4) e segna un progresso verso interazioni uomo-computer più intuitive.

Fatti principali

1. Gelina sintetizza congiuntamente discorso e gesti co-verbali a partire da testo.
2. Utilizza sequenze di token intervallati in un'architettura autoregressiva discreta.
3. Include decodificatori specifici per modalità.
4. Supporta la clonazione multi-parlante e multi-stile.
5. Consente la sintesi di soli gesti a partire da input vocali.
6. Dimostra qualità vocale competitiva e migliore generazione di gesti.
7. Pubblicato su arXiv con identificativo 2510.12834v4.
8. Affronta l'allineamento di sincronia e prosodia nella comunicazione multimodale.

Gelina: Sintesi Unificata di Discorso e Gesti tramite Predizione di Token Intervallati

Fatti principali

Entità

Istituzioni

Fonti