ARTFEED — Contemporary Art Intelligence

Il Ragionamento Ricorsivo Sparso Migliora i Modelli di Diffusione Multimodali

ai-technology · 2026-04-30

Un nuovo studio ha svelato un framework ricorsivo e sparso di mixture-of-experts progettato per migliorare il ragionamento strutturato nei modelli di diffusione multimodali text-to-image. Questo approccio è ispirato a come gli esseri umani pensano in moduli e integra un aspetto ricorsivo all'interno dei livelli di attenzione congiunta. Migliora progressivamente i token visivi attraverso molteplici passaggi latenti, condividendo efficientemente i parametri utilizzando selettivamente determinati moduli neurali. Una rete di gating è responsabile della selezione dei moduli specializzati in ogni fase. Questa ricerca affronta la sfida di applicare il ragionamento latente e la ricorsione dai modelli linguistici ai token visivi continui nella generazione text-to-image. I risultati completi sono disponibili su arXiv con l'identificatore 2604.25299.

Fatti principali

  • L'articolo propone un framework ricorsivo e sparso di mixture-of-experts per modelli di diffusione.
  • Il framework è ispirato alla cognizione umana modulare.
  • Integra una componente ricorsiva all'interno dei livelli di attenzione congiunta.
  • I token visivi vengono raffinati iterativamente su più passaggi latenti.
  • I parametri sono condivisi tramite selezione sparsa di moduli neurali.
  • Una rete di gating seleziona dinamicamente moduli specializzati ad ogni passo.
  • L'approccio mira al ragionamento strutturato nella generazione text-to-image.
  • L'articolo è disponibile su arXiv con ID 2604.25299.

Entità

Istituzioni

  • arXiv

Fonti