UNO Framework utilizza la comprensione per guidare la generazione visiva nell'IA multimodale
Un nuovo framework leggero chiamato Understanding-Oriented Post-Training (UNO) mira a ripristinare la sinergia tra comprensione e generazione nei modelli multimodali unificati. I modelli all'avanguardia attuali spesso disaccoppiano questi componenti per prestazioni individuali, indebolendo il miglioramento reciproco. UNO tratta la comprensione come un segnale di supervisione per le rappresentazioni generative, incorporando obiettivi per l'astrazione semantica (didascalie) e i dettagli strutturali (regressione visiva). Esperimenti su generazione e editing di immagini mostrano che la comprensione può catalizzare efficacemente la generazione.
Fatti principali
- 1. UNO sta per Understanding-Oriented Post-Training
- 2. UNO è un framework leggero per modelli multimodali unificati
- 3. Utilizza la comprensione come segnale di supervisione per la generazione
- 4. Gli obiettivi includono didascalie (astrazione semantica) e regressione visiva (dettagli strutturali)
- 5. Gli esperimenti sono stati condotti su compiti di generazione e editing di immagini
- 6. L'approccio mira a ripristinare la sinergia tra comprensione e generazione
- 7. I modelli attuali spesso disaccoppiano i componenti di comprensione e generazione
- 8. Il paper è disponibile su arXiv con ID 2605.05781
Entità
Istituzioni
- arXiv