AsymK-Talker: Generazione di Teste Parlanti in Tempo Reale tramite Distillazione Asimmetrica del Kernel
AsymK-Talker è un metodo innovativo che combina diffusione e distillazione per generare teste parlanti in tempo reale e per periodi prolungati, come dettagliato in un articolo su arXiv (2605.02948). Questa tecnica supera tre sfide significative affrontate dagli attuali metodi di diffusione: inefficienza nell'inferenza causale, mancanza di compatibilità con condizionamenti temporalmente coerenti e deriva graduale in sequenze lunghe. Si compone di tre elementi principali: Kernel-Conditioned Loop Generation (KCLG), che utilizza kernel di movimento per una propagazione temporale coerente; Temporal Reference Encoding (TRE), che trasforma un riferimento di identità statico in una rappresentazione latente sensibile al tempo per una migliore sincronizzazione audio-visiva; e un approccio di distillazione asimmetrica del kernel. Questo metodo consente la generazione di teste parlanti guidate dall'audio in tempo reale con maggiore coerenza temporale e stabilità su lunghe durate.
Fatti principali
- AsymK-Talker è un metodo di diffusione-distillazione per la generazione di teste parlanti
- Affronta inefficienza causale, incompatibilità con condizionamenti temporalmente coerenti e deriva progressiva
- Utilizza Kernel-Conditioned Loop Generation (KCLG) per la generazione a blocchi
- Impiega Temporal Reference Encoding (TRE) per la sincronizzazione audio-visiva
- Pubblicato su arXiv con ID 2605.02948
- Si concentra sulla generazione in tempo reale e a lungo orizzonte
- Il tipo di annuncio è cross
- Sfrutta kernel di movimento per la coerenza temporale
Entità
Istituzioni
- arXiv