Bernini: Pianificazione Semantica Basata su MLLM per la Diffusione Video
Presentiamo Bernini, un nuovo framework che integra modelli linguistici multimodali di grandi dimensioni (MLLM) con modelli di diffusione per la creazione e modifica di video. Questo sistema assegna i compiti in modo efficiente: un pianificatore basato su MLLM prevede le rappresentazioni semantiche desiderate nello spazio di embedding ViT, mentre un renderer basato su DiT genera pixel basandosi su questo progetto, arricchito da attributi testuali e caratteristiche VAE di origine per mantenere i dettagli. Il pianificatore e il renderer possono essere addestrati indipendentemente, poiché la semantica funge da interfaccia di connessione. Questo articolo di ricerca è disponibile su arXiv con l'identificatore 2605.22344.
Fatti principali
- Bernini è un framework unificato per la generazione e modifica di video.
- Utilizza un pianificatore basato su MLLM per la pianificazione semantica.
- Il pianificatore prevede rappresentazioni semantiche target nello spazio di embedding ViT.
- Un renderer basato su DiT sintetizza pixel condizionati dal piano.
- Il renderer è potenziato da caratteristiche testuali e caratteristiche VAE di origine per la modifica.
- Il pianificatore e il renderer possono essere addestrati separatamente.
- L'articolo è su arXiv con ID 2605.22344.
- L'approccio divide il lavoro tra MLLM e modelli di diffusione.
Entità
Istituzioni
- arXiv