JoyAI-Image: Un Modello Multimodale Unificato per la Comprensione e Generazione Visiva

ai-technology · 2026-05-07

JoyAI-Image è un modello di base multimodale integrato che combina comprensione visiva, creazione testo-immagine e editing guidato delle immagini. Presenta un Modello Linguistico Multimodale (MLLM) potenziato spazialmente insieme a un Trasformatore Diffusivo Multimodale (MMDiT), consentendo l'interazione tra percezione e generazione tramite un'interfaccia multimodale comune. L'architettura beneficia di una metodologia di addestramento scalabile che include istruzioni unificate, supervisione per il rendering di testi lunghi, dati spazialmente ancorati e segnali per l'editing generale e spaziale. Questa configurazione migliora il ragionamento geometrico e la sintesi visiva controllabile. Le valutazioni su vari benchmark per comprensione, generazione, rendering di testi lunghi ed editing dimostrano risultati all'avanguardia o altamente competitivi, segnando un notevole balzo nell'intelligenza spaziale per l'IA multimodale.

Fatti principali

JoyAI-Image è un modello di base multimodale unificato.
Gestisce comprensione visiva, generazione testo-immagine ed editing guidato da istruzioni.
Abbina un MLLM potenziato spazialmente con un Trasformatore Diffusivo Multimodale (MMDiT).
Percezione e generazione interagiscono attraverso un'interfaccia multimodale condivisa.
L'addestramento include istruzioni unificate, supervisione per il rendering di testi lunghi, dati spazialmente ancorati e segnali di editing.
Il modello raggiunge prestazioni all'avanguardia o altamente competitive su più benchmark.
Il ciclo bidirezionale tra comprensione e generazione migliora l'intelligenza spaziale.
L'articolo è disponibile su arXiv con ID 2605.04128.

JoyAI-Image: Un Modello Multimodale Unificato per la Comprensione e Generazione Visiva

Fatti principali

Entità

Istituzioni

Fonti