A$^2$RD: Diffusione Autoregressiva Agentica per la Coerenza di Video Lunghi
I ricercatori propongono A$^2$RD, un'architettura di diffusione autoregressiva agentica per la sintesi di video lunghi. Il metodo separa la generazione creativa dall'applicazione della coerenza utilizzando un processo a ciclo chiuso con memoria multimodale, generazione adattiva dei segmenti e auto-miglioramento gerarchico. Viene introdotto un nuovo benchmark LVBench-C per transizioni non lineari di entità e ambienti. Il lavoro affronta la deriva semantica e il collasso narrativo nei video lunghi.
Fatti principali
- 1. A$^2$RD sta per Diffusione Autoregressiva Agentica.
- 2. Sintetizza video lunghi segmento per segmento tramite un ciclo Recupera-Sintetizza-Raffina-Aggiorna.
- 3. Tre componenti principali: Memoria Video Multimodale, Generazione Adattiva dei Segmenti, Auto-Miglioramento Gerarchico al Test.
- 4. LVBench-C è un nuovo benchmark per transizioni non lineari di entità e ambienti.
- 5. Il metodo mira a prevenire la deriva semantica e il collasso narrativo.
- 6. L'articolo è disponibile su arXiv con identificativo 2605.06924.
- 7. L'approccio utilizza un processo a ciclo chiuso per l'auto-miglioramento.
- 8. Passa tra diverse modalità di generazione per una progressione naturale e coerenza visiva.
Entità
Istituzioni
- arXiv