ARTFEED — Contemporary Art Intelligence

Bernini: Pianificazione Semantica Basata su MLLM per la Diffusione Video

ai-technology · 2026-05-23

Presentiamo Bernini, un nuovo framework che integra modelli linguistici multimodali di grandi dimensioni (MLLM) con modelli di diffusione per la creazione e modifica di video. Questo sistema assegna i compiti in modo efficiente: un pianificatore basato su MLLM prevede le rappresentazioni semantiche desiderate nello spazio di embedding ViT, mentre un renderer basato su DiT genera pixel basandosi su questo progetto, arricchito da attributi testuali e caratteristiche VAE di origine per mantenere i dettagli. Il pianificatore e il renderer possono essere addestrati indipendentemente, poiché la semantica funge da interfaccia di connessione. Questo articolo di ricerca è disponibile su arXiv con l'identificatore 2605.22344.

Fatti principali

  • Bernini è un framework unificato per la generazione e modifica di video.
  • Utilizza un pianificatore basato su MLLM per la pianificazione semantica.
  • Il pianificatore prevede rappresentazioni semantiche target nello spazio di embedding ViT.
  • Un renderer basato su DiT sintetizza pixel condizionati dal piano.
  • Il renderer è potenziato da caratteristiche testuali e caratteristiche VAE di origine per la modifica.
  • Il pianificatore e il renderer possono essere addestrati separatamente.
  • L'articolo è su arXiv con ID 2605.22344.
  • L'approccio divide il lavoro tra MLLM e modelli di diffusione.

Entità

Istituzioni

  • arXiv

Fonti