ARTFEED — Contemporary Art Intelligence

DySink: Sink di Frame Dinamici per la Generazione Efficiente di Video Lunghi

other · 2026-05-22

DySink, un nuovo framework, migliora la generazione di video lunghi in modo autoregressivo sostituendo i sink statici dei primi frame con alternative dinamiche basate su recupero. Le tecniche convenzionali si basano su primi frame invariati come riferimenti a lungo raggio, che possono diventare obsoleti man mano che il contesto visivo cambia, portando a bias e possibile fallimento del sink. Al contrario, DySink utilizza un memory bank snello per scegliere dinamicamente frame storici visivamente pertinenti, insieme a un sink anomaly gate che identifica un eccessivo consenso nell'attenzione inter-head. Questo metodo flessibile migliora significativamente sia la qualità che l'efficienza della generazione video.

Fatti principali

  • DySink è un framework basato su recupero per la generazione autoregressiva di video lunghi.
  • Sostituisce i sink statici dei primi frame con sink di frame dinamici.
  • I metodi tradizionali usano primi frame fissi che diventano obsoleti.
  • I sink statici possono causare bias e collasso del sink a causa del riallineamento di fase indotto da RoPE.
  • DySink mantiene un memory bank compatto.
  • Seleziona adattivamente frame storici visivamente rilevanti.
  • Un sink anomaly gate rileva un eccessivo consenso inter-head.
  • Il framework migliora la qualità e l'efficienza della generazione.

Entità

Istituzioni

  • arXiv

Fonti