DySink: Sink di Frame Dinamici per la Generazione Efficiente di Video Lunghi
DySink, un nuovo framework, migliora la generazione di video lunghi in modo autoregressivo sostituendo i sink statici dei primi frame con alternative dinamiche basate su recupero. Le tecniche convenzionali si basano su primi frame invariati come riferimenti a lungo raggio, che possono diventare obsoleti man mano che il contesto visivo cambia, portando a bias e possibile fallimento del sink. Al contrario, DySink utilizza un memory bank snello per scegliere dinamicamente frame storici visivamente pertinenti, insieme a un sink anomaly gate che identifica un eccessivo consenso nell'attenzione inter-head. Questo metodo flessibile migliora significativamente sia la qualità che l'efficienza della generazione video.
Fatti principali
- DySink è un framework basato su recupero per la generazione autoregressiva di video lunghi.
- Sostituisce i sink statici dei primi frame con sink di frame dinamici.
- I metodi tradizionali usano primi frame fissi che diventano obsoleti.
- I sink statici possono causare bias e collasso del sink a causa del riallineamento di fase indotto da RoPE.
- DySink mantiene un memory bank compatto.
- Seleziona adattivamente frame storici visivamente rilevanti.
- Un sink anomaly gate rileva un eccessivo consenso inter-head.
- Il framework migliora la qualità e l'efficienza della generazione.
Entità
Istituzioni
- arXiv