ARTFEED — Contemporary Art Intelligence

A$^2$RD: Diffusione Autoregressiva Agentica per la Coerenza di Video Lunghi

other · 2026-05-11

I ricercatori propongono A$^2$RD, un'architettura di diffusione autoregressiva agentica per la sintesi di video lunghi. Il metodo separa la generazione creativa dall'applicazione della coerenza utilizzando un processo a ciclo chiuso con memoria multimodale, generazione adattiva dei segmenti e auto-miglioramento gerarchico. Viene introdotto un nuovo benchmark LVBench-C per transizioni non lineari di entità e ambienti. Il lavoro affronta la deriva semantica e il collasso narrativo nei video lunghi.

Fatti principali

  • 1. A$^2$RD sta per Diffusione Autoregressiva Agentica.
  • 2. Sintetizza video lunghi segmento per segmento tramite un ciclo Recupera-Sintetizza-Raffina-Aggiorna.
  • 3. Tre componenti principali: Memoria Video Multimodale, Generazione Adattiva dei Segmenti, Auto-Miglioramento Gerarchico al Test.
  • 4. LVBench-C è un nuovo benchmark per transizioni non lineari di entità e ambienti.
  • 5. Il metodo mira a prevenire la deriva semantica e il collasso narrativo.
  • 6. L'articolo è disponibile su arXiv con identificativo 2605.06924.
  • 7. L'approccio utilizza un processo a ciclo chiuso per l'auto-miglioramento.
  • 8. Passa tra diverse modalità di generazione per una progressione naturale e coerenza visiva.

Entità

Istituzioni

  • arXiv

Fonti