JoyAI-Image: Un Modello Multimodale Unificato per la Comprensione e Generazione Visiva
JoyAI-Image è un modello di base multimodale integrato che combina comprensione visiva, creazione testo-immagine e editing guidato delle immagini. Presenta un Modello Linguistico Multimodale (MLLM) potenziato spazialmente insieme a un Trasformatore Diffusivo Multimodale (MMDiT), consentendo l'interazione tra percezione e generazione tramite un'interfaccia multimodale comune. L'architettura beneficia di una metodologia di addestramento scalabile che include istruzioni unificate, supervisione per il rendering di testi lunghi, dati spazialmente ancorati e segnali per l'editing generale e spaziale. Questa configurazione migliora il ragionamento geometrico e la sintesi visiva controllabile. Le valutazioni su vari benchmark per comprensione, generazione, rendering di testi lunghi ed editing dimostrano risultati all'avanguardia o altamente competitivi, segnando un notevole balzo nell'intelligenza spaziale per l'IA multimodale.
Fatti principali
- JoyAI-Image è un modello di base multimodale unificato.
- Gestisce comprensione visiva, generazione testo-immagine ed editing guidato da istruzioni.
- Abbina un MLLM potenziato spazialmente con un Trasformatore Diffusivo Multimodale (MMDiT).
- Percezione e generazione interagiscono attraverso un'interfaccia multimodale condivisa.
- L'addestramento include istruzioni unificate, supervisione per il rendering di testi lunghi, dati spazialmente ancorati e segnali di editing.
- Il modello raggiunge prestazioni all'avanguardia o altamente competitive su più benchmark.
- Il ciclo bidirezionale tra comprensione e generazione migliora l'intelligenza spaziale.
- L'articolo è disponibile su arXiv con ID 2605.04128.
Entità
Istituzioni
- arXiv