ARTFEED — Contemporary Art Intelligence

DDA-Thinker: Apprendimento per Rinforzo Dual-Atomico per l'Editing di Immagini Guidato dal Ragionamento

ai-technology · 2026-04-30

I ricercatori propongono DDA-Thinker, un framework che separa la pianificazione dalla generazione nell'editing di immagini. Il sistema utilizza un modulo Thinker ottimizzato tramite apprendimento per rinforzo dual-atomico, con ricompense cognitivo-atomiche e visivo-atomiche per valutare la qualità del piano e la fedeltà dell'immagine finale. Questo approccio mira a migliorare la pianificazione basata sul ragionamento in compiti di editing complessi.

Fatti principali

  • DDA-Thinker è un framework incentrato sul Thinker per l'editing di immagini guidato dal ragionamento.
  • Separa il modulo di pianificazione (Thinker) dal modello generativo (Editor).
  • L'apprendimento per rinforzo dual-atomico utilizza ricompense cognitivo-atomiche e visivo-atomiche.
  • La ricompensa cognitivo-atomica valuta la qualità del piano eseguibile.
  • La ricompensa visivo-atomica valuta la qualità dell'immagine finale.
  • Il framework è progettato per l'analisi controllata del modulo di pianificazione.
  • L'approccio è mirato a compiti che richiedono ragionamento complesso.
  • L'articolo è disponibile su arXiv con ID 2604.25477.

Entità

Istituzioni

  • arXiv

Fonti