Memoria Entità-Centrica per la Generazione Coerente di Video Multi-Inquadratura
La tecnica innovativa nota come EM-Vid presenta un framework di memoria entità-centrica per generare video multi-inquadratura. Questo metodo affronta il problema di garantire che le entità ricorrenti mantengano un aspetto coerente tra diverse inquadrature, seguendo al contempo specifici prompt testuali per ciascuna inquadratura. A differenza delle recenti tecniche autoregressive che utilizzano fotogrammi completi per la memoria, causando perdita di informazioni e maggiori richieste computazionali, EM-Vid si basa su una raccolta di patch latenti indicizzate per entità. Incorpora un condizionamento sparso di token che si allinea con modelli pre-addestrati, limitando l'auto-attenzione ai token rilevanti per le entità per migliorare l'efficienza. L'approccio presenta anche un formato strutturato di script multi-inquadratura, una strategia di aggiornamento della memoria per una memoria compatta in evoluzione e un meccanismo di iniezione di rumore per un controllo preciso dell'aspetto. Questa ricerca è disponibile su arXiv con ID 2605.23610.
Fatti principali
- EM-Vid propone una memoria entità-centrica per la generazione di video multi-inquadratura.
- La memoria è memorizzata come un archivio di patch latenti indicizzate per entità.
- Il condizionamento sparso di token riduce il costo computazionale limitando l'auto-attenzione ai token rilevanti per le entità.
- Viene introdotto un formato strutturato di script multi-inquadratura.
- Una strategia di aggiornamento della memoria con budget mantiene una memoria compatta in evoluzione.
- Un meccanismo di iniezione di rumore consente un controllo fine dell'aspetto.
- Il metodo è senza addestramento e compatibile con modelli pre-addestrati.
- L'articolo è disponibile su arXiv con ID 2605.23610.
Entità
Istituzioni
- arXiv