DDA-Thinker: Apprendimento per Rinforzo Dual-Atomico per l'Editing di Immagini Guidato dal Ragionamento
I ricercatori propongono DDA-Thinker, un framework che separa la pianificazione dalla generazione nell'editing di immagini. Il sistema utilizza un modulo Thinker ottimizzato tramite apprendimento per rinforzo dual-atomico, con ricompense cognitivo-atomiche e visivo-atomiche per valutare la qualità del piano e la fedeltà dell'immagine finale. Questo approccio mira a migliorare la pianificazione basata sul ragionamento in compiti di editing complessi.
Fatti principali
- DDA-Thinker è un framework incentrato sul Thinker per l'editing di immagini guidato dal ragionamento.
- Separa il modulo di pianificazione (Thinker) dal modello generativo (Editor).
- L'apprendimento per rinforzo dual-atomico utilizza ricompense cognitivo-atomiche e visivo-atomiche.
- La ricompensa cognitivo-atomica valuta la qualità del piano eseguibile.
- La ricompensa visivo-atomica valuta la qualità dell'immagine finale.
- Il framework è progettato per l'analisi controllata del modulo di pianificazione.
- L'approccio è mirato a compiti che richiedono ragionamento complesso.
- L'articolo è disponibile su arXiv con ID 2604.25477.
Entità
Istituzioni
- arXiv