A$^2$RD: Diffusione Autoregressiva Agentica per la Coerenza di Video Lunghi

other · 2026-05-11

I ricercatori propongono A$^2$RD, un'architettura di diffusione autoregressiva agentica per la sintesi di video lunghi. Il metodo separa la generazione creativa dall'applicazione della coerenza utilizzando un processo a ciclo chiuso con memoria multimodale, generazione adattiva dei segmenti e auto-miglioramento gerarchico. Viene introdotto un nuovo benchmark LVBench-C per transizioni non lineari di entità e ambienti. Il lavoro affronta la deriva semantica e il collasso narrativo nei video lunghi.

Fatti principali

1. A$^2$RD sta per Diffusione Autoregressiva Agentica.
2. Sintetizza video lunghi segmento per segmento tramite un ciclo Recupera-Sintetizza-Raffina-Aggiorna.
3. Tre componenti principali: Memoria Video Multimodale, Generazione Adattiva dei Segmenti, Auto-Miglioramento Gerarchico al Test.
4. LVBench-C è un nuovo benchmark per transizioni non lineari di entità e ambienti.
5. Il metodo mira a prevenire la deriva semantica e il collasso narrativo.
6. L'articolo è disponibile su arXiv con identificativo 2605.06924.
7. L'approccio utilizza un processo a ciclo chiuso per l'auto-miglioramento.
8. Passa tra diverse modalità di generazione per una progressione naturale e coerenza visiva.

A$^2$RD: Diffusione Autoregressiva Agentica per la Coerenza di Video Lunghi

Fatti principali

Entità

Istituzioni

Fonti