Bernini: Pianificazione Semantica Basata su MLLM per la Diffusione Video

ai-technology · 2026-05-23

Presentiamo Bernini, un nuovo framework che integra modelli linguistici multimodali di grandi dimensioni (MLLM) con modelli di diffusione per la creazione e modifica di video. Questo sistema assegna i compiti in modo efficiente: un pianificatore basato su MLLM prevede le rappresentazioni semantiche desiderate nello spazio di embedding ViT, mentre un renderer basato su DiT genera pixel basandosi su questo progetto, arricchito da attributi testuali e caratteristiche VAE di origine per mantenere i dettagli. Il pianificatore e il renderer possono essere addestrati indipendentemente, poiché la semantica funge da interfaccia di connessione. Questo articolo di ricerca è disponibile su arXiv con l'identificatore 2605.22344.

Fatti principali

Bernini è un framework unificato per la generazione e modifica di video.
Utilizza un pianificatore basato su MLLM per la pianificazione semantica.
Il pianificatore prevede rappresentazioni semantiche target nello spazio di embedding ViT.
Un renderer basato su DiT sintetizza pixel condizionati dal piano.
Il renderer è potenziato da caratteristiche testuali e caratteristiche VAE di origine per la modifica.
Il pianificatore e il renderer possono essere addestrati separatamente.
L'articolo è su arXiv con ID 2605.22344.
L'approccio divide il lavoro tra MLLM e modelli di diffusione.

Bernini: Pianificazione Semantica Basata su MLLM per la Diffusione Video

Fatti principali

Entità

Istituzioni

Fonti