Il Ragionamento Ricorsivo Sparso Migliora i Modelli di Diffusione Multimodali

ai-technology · 2026-04-30

Un nuovo studio ha svelato un framework ricorsivo e sparso di mixture-of-experts progettato per migliorare il ragionamento strutturato nei modelli di diffusione multimodali text-to-image. Questo approccio è ispirato a come gli esseri umani pensano in moduli e integra un aspetto ricorsivo all'interno dei livelli di attenzione congiunta. Migliora progressivamente i token visivi attraverso molteplici passaggi latenti, condividendo efficientemente i parametri utilizzando selettivamente determinati moduli neurali. Una rete di gating è responsabile della selezione dei moduli specializzati in ogni fase. Questa ricerca affronta la sfida di applicare il ragionamento latente e la ricorsione dai modelli linguistici ai token visivi continui nella generazione text-to-image. I risultati completi sono disponibili su arXiv con l'identificatore 2604.25299.

Fatti principali

L'articolo propone un framework ricorsivo e sparso di mixture-of-experts per modelli di diffusione.
Il framework è ispirato alla cognizione umana modulare.
Integra una componente ricorsiva all'interno dei livelli di attenzione congiunta.
I token visivi vengono raffinati iterativamente su più passaggi latenti.
I parametri sono condivisi tramite selezione sparsa di moduli neurali.
Una rete di gating seleziona dinamicamente moduli specializzati ad ogni passo.
L'approccio mira al ragionamento strutturato nella generazione text-to-image.
L'articolo è disponibile su arXiv con ID 2604.25299.

Il Ragionamento Ricorsivo Sparso Migliora i Modelli di Diffusione Multimodali

Fatti principali

Entità

Istituzioni

Fonti