MMCORE: Quadro Unificato per la Generazione e Modifica di Immagini Multimodali

ai-technology · 2026-04-24

MMCORE funge da sistema coeso per generare e modificare immagini multimodali, utilizzando un Modello Visione-Linguaggio (VLM) pre-addestrato per prevedere embedding visivi semantici attraverso token di query regolabili. Questi embedding guidano un modello di diffusione, consentendo di trasferire le capacità di ragionamento del VLM nella creazione visiva. L'architettura evita l'integrazione estensiva di modelli autoregressivi e di diffusione, nonché la necessità di addestramento da zero, riducendo così i requisiti computazionali pur garantendo una sintesi di alta qualità. Combinando la generazione testo-immagine con la creazione simultanea di immagini, MMCORE eccelle nel ragionamento spaziale e nell'ancoraggio visivo. Le valutazioni delle prestazioni indicano che supera i benchmark leader in vari compiti.

Fatti principali

1. MMCORE è un quadro unificato per la generazione e modifica di immagini multimodali.
2. Utilizza un Modello Visione-Linguaggio (VLM) pre-addestrato per prevedere embedding visivi semantici tramite token di query apprendibili.
3. Gli embedding fungono da segnali di condizionamento per un modello di diffusione.
4. Il design evita una fusione profonda tra modelli autoregressivi e di diffusione o l'addestramento da zero.
5. Riduce il carico computazionale mantenendo una sintesi ad alta fedeltà.
6. MMCORE integra la sintesi testo-immagine con la generazione intervallata di immagini.
7. Dimostra una robusta comprensione multimodale nel ragionamento spaziale e nell'ancoraggio visivo.
8. Valutazioni complete mostrano che MMCORE supera costantemente le baseline all'avanguardia.

Entità

—

Fonti

arXiv cs.AI — 2026-04-23