Memoria Entità-Centrica per la Generazione Coerente di Video Multi-Inquadratura

other · 2026-05-25

La tecnica innovativa nota come EM-Vid presenta un framework di memoria entità-centrica per generare video multi-inquadratura. Questo metodo affronta il problema di garantire che le entità ricorrenti mantengano un aspetto coerente tra diverse inquadrature, seguendo al contempo specifici prompt testuali per ciascuna inquadratura. A differenza delle recenti tecniche autoregressive che utilizzano fotogrammi completi per la memoria, causando perdita di informazioni e maggiori richieste computazionali, EM-Vid si basa su una raccolta di patch latenti indicizzate per entità. Incorpora un condizionamento sparso di token che si allinea con modelli pre-addestrati, limitando l'auto-attenzione ai token rilevanti per le entità per migliorare l'efficienza. L'approccio presenta anche un formato strutturato di script multi-inquadratura, una strategia di aggiornamento della memoria per una memoria compatta in evoluzione e un meccanismo di iniezione di rumore per un controllo preciso dell'aspetto. Questa ricerca è disponibile su arXiv con ID 2605.23610.

Fatti principali

EM-Vid propone una memoria entità-centrica per la generazione di video multi-inquadratura.
La memoria è memorizzata come un archivio di patch latenti indicizzate per entità.
Il condizionamento sparso di token riduce il costo computazionale limitando l'auto-attenzione ai token rilevanti per le entità.
Viene introdotto un formato strutturato di script multi-inquadratura.
Una strategia di aggiornamento della memoria con budget mantiene una memoria compatta in evoluzione.
Un meccanismo di iniezione di rumore consente un controllo fine dell'aspetto.
Il metodo è senza addestramento e compatibile con modelli pre-addestrati.
L'articolo è disponibile su arXiv con ID 2605.23610.

Memoria Entità-Centrica per la Generazione Coerente di Video Multi-Inquadratura

Fatti principali

Entità

Istituzioni

Fonti