DyMoS: Metodo Senza Addestramento per Migliorare il Movimento nei Modelli Immagine-Video

ai-technology · 2026-05-20

Un fattore significativo che contribuisce alla soppressione del movimento nei modelli immagine-video (I2V) è stato identificato dai ricercatori come dominanza del fotogramma di riferimento. Per affrontare questo problema, hanno introdotto DyMoS (Dynamic Motion Slider), un metodo che non richiede addestramento ed è compatibile con vari modelli. DyMoS sposta l'attenzione dai fotogrammi generati al fotogramma di riferimento durante il processo iniziale di denoising, mantenendo invariati l'immagine di input originale e i pesi del modello. Introduce un singolo parametro scalare che consente una regolazione continua dell'intensità del movimento. Questo approccio mitiga efficacemente il problema dei video eccessivamente statici spesso osservati nei modelli I2V, senza compromettere la fedeltà all'immagine di riferimento.

Fatti principali

1. arXiv:2605.19398v1
2. La dominanza del fotogramma di riferimento è identificata come meccanismo chiave alla base della soppressione del movimento nei modelli I2V.
3. I fotogrammi non di riferimento allocano eccessiva self-attention ai token chiave del fotogramma di riferimento.
4. DyMoS riequilibra i percorsi di attenzione dai fotogrammi generati al fotogramma di riferimento.
5. DyMoS non richiede addestramento ed è agnostico rispetto al modello.
6. DyMoS lascia invariati l'immagine di input e i pesi del modello.
7. Un singolo parametro scalare consente il controllo continuo del movimento.
8. Il metodo migliora il movimento senza addestramento aggiuntivo o sacrificio della fedeltà all'immagine di riferimento.

DyMoS: Metodo Senza Addestramento per Migliorare il Movimento nei Modelli Immagine-Video

Fatti principali

Entità

Istituzioni

Fonti