Il Ragionamento Ricorsivo Sparso Migliora i Modelli di Diffusione Multimodali
Un nuovo studio ha svelato un framework ricorsivo e sparso di mixture-of-experts progettato per migliorare il ragionamento strutturato nei modelli di diffusione multimodali text-to-image. Questo approccio è ispirato a come gli esseri umani pensano in moduli e integra un aspetto ricorsivo all'interno dei livelli di attenzione congiunta. Migliora progressivamente i token visivi attraverso molteplici passaggi latenti, condividendo efficientemente i parametri utilizzando selettivamente determinati moduli neurali. Una rete di gating è responsabile della selezione dei moduli specializzati in ogni fase. Questa ricerca affronta la sfida di applicare il ragionamento latente e la ricorsione dai modelli linguistici ai token visivi continui nella generazione text-to-image. I risultati completi sono disponibili su arXiv con l'identificatore 2604.25299.
Fatti principali
- L'articolo propone un framework ricorsivo e sparso di mixture-of-experts per modelli di diffusione.
- Il framework è ispirato alla cognizione umana modulare.
- Integra una componente ricorsiva all'interno dei livelli di attenzione congiunta.
- I token visivi vengono raffinati iterativamente su più passaggi latenti.
- I parametri sono condivisi tramite selezione sparsa di moduli neurali.
- Una rete di gating seleziona dinamicamente moduli specializzati ad ogni passo.
- L'approccio mira al ragionamento strutturato nella generazione text-to-image.
- L'articolo è disponibile su arXiv con ID 2604.25299.
Entità
Istituzioni
- arXiv