EAD-Net: Generazione di Teste Parlanti con Consapevolezza Emotiva, Raffinamento Spaziale e Coerenza Temporale

ai-technology · 2026-04-29

Un nuovo modello di intelligenza artificiale chiamato EAD-Net (Emotion-Aware Diffusion Network) è stato proposto per generare video di teste parlanti emotivamente espressive. Il sistema affronta le principali sfide dei metodi attuali: informazioni semantiche insufficienti da semplici etichette emotive, degrado del sincronismo labiale quando si introducono semantiche di alto livello e scarsa coerenza temporale in video lunghi. EAD-Net incorpora la supervisione SyncNet e l'Allineamento della Rappresentazione Temporale (TREPA) per mantenere la sincronizzazione labiale durante la fusione multimodale. Un meccanismo di Attenzione Direzionale Spazio-Temporale (STDA) modella le complesse dipendenze spazio-temporali in sequenze lunghe. La ricerca è stata pubblicata su arXiv (2604.23325) come annuncio di tipo cross.

Fatti principali

EAD-Net sta per Emotion-Aware Diffusion Network
Genera video di teste parlanti con espressioni facciali emotive e sincronizzazione labiale accurata
I metodi attuali si basano su semplici etichette emotive con informazioni semantiche insufficienti
Le semantiche di alto livello migliorano l'espressività ma causano degrado del sincronismo labiale
La supervisione SyncNet e TREPA mitigano il degrado del sincronismo labiale
Il meccanismo STDA cattura le dipendenze spazio-temporali in video lunghi
L'articolo è disponibile su arXiv con ID 2604.23325
Il tipo di annuncio è cross

EAD-Net: Generazione di Teste Parlanti con Consapevolezza Emotiva, Raffinamento Spaziale e Coerenza Temporale

Fatti principali

Entità

Istituzioni

Fonti