EAD-Net: Generazione di Teste Parlanti con Consapevolezza Emotiva, Raffinamento Spaziale e Coerenza Temporale
Un nuovo modello di intelligenza artificiale chiamato EAD-Net (Emotion-Aware Diffusion Network) è stato proposto per generare video di teste parlanti emotivamente espressive. Il sistema affronta le principali sfide dei metodi attuali: informazioni semantiche insufficienti da semplici etichette emotive, degrado del sincronismo labiale quando si introducono semantiche di alto livello e scarsa coerenza temporale in video lunghi. EAD-Net incorpora la supervisione SyncNet e l'Allineamento della Rappresentazione Temporale (TREPA) per mantenere la sincronizzazione labiale durante la fusione multimodale. Un meccanismo di Attenzione Direzionale Spazio-Temporale (STDA) modella le complesse dipendenze spazio-temporali in sequenze lunghe. La ricerca è stata pubblicata su arXiv (2604.23325) come annuncio di tipo cross.
Fatti principali
- EAD-Net sta per Emotion-Aware Diffusion Network
- Genera video di teste parlanti con espressioni facciali emotive e sincronizzazione labiale accurata
- I metodi attuali si basano su semplici etichette emotive con informazioni semantiche insufficienti
- Le semantiche di alto livello migliorano l'espressività ma causano degrado del sincronismo labiale
- La supervisione SyncNet e TREPA mitigano il degrado del sincronismo labiale
- Il meccanismo STDA cattura le dipendenze spazio-temporali in video lunghi
- L'articolo è disponibile su arXiv con ID 2604.23325
- Il tipo di annuncio è cross
Entità
Istituzioni
- arXiv