ARTFEED — Contemporary Art Intelligence

Apprendimento di Modelli Energetici Multimodali tramite Revisione MCMC

publication · 2026-05-04

Viene proposto un nuovo framework di apprendimento per modelli energetici multimodali (EBM), che affronta lo scarso mescolamento della dinamica di Langevin inizializzata con rumore nello spazio congiunto dei dati. Il framework integra un VAE multimodale con un generatore latente condiviso e un modello di inferenza congiunta, entrambi attualmente limitati da una parametrizzazione gaussiana o laplaciana unimodale. Intrecciando la revisione MCMC, il metodo migliora la cattura delle complesse dipendenze inter-modali. Il lavoro è pubblicato su arXiv con ID 2605.00644.

Fatti principali

  • I modelli energetici (EBM) sono una classe flessibile di modelli generativi profondi.
  • L'apprendimento di EBM multimodali tramite massima verosimiglianza richiede campionamento MCMC nello spazio congiunto dei dati.
  • La dinamica di Langevin inizializzata con rumore spesso si mescola male e non riesce a scoprire relazioni inter-modali coerenti.
  • I VAE multimodali catturano le dipendenze inter-modali tramite un generatore latente condiviso e un modello di inferenza congiunta.
  • Sia il generatore latente condiviso che il modello di inferenza congiunta sono parametrizzati come gaussiani o laplaciani unimodali.
  • Questa parametrizzazione limita l'approssimazione di strutture dati multimodali complesse.
  • Viene presentato un framework di apprendimento che intreccia la revisione MCMC.
  • Il framework studia il problema di apprendimento di EBM multimodali, generatore latente condiviso e modello di inferenza congiunta.

Entità

Istituzioni

  • arXiv

Fonti