ARTFEED — Contemporary Art Intelligence

OneWM-VLA: Compressione del Flusso Visivo in un Singolo Token per Fotogramma

ai-technology · 2026-05-11

I ricercatori propongono OneWM-VLA, un metodo che comprime ogni fotogramma video in un singolo token semantico per modelli visione-linguaggio-azione (VLA) potenziati da modelli del mondo. Gli approcci esistenti trasmettono flussi visivi ad alta larghezza di banda ai moduli del mondo, lasciando poco esaminata la rappresentazione per fotogramma e l'accoppiamento delle azioni sotto vincoli di adattamento limitati. OneWM-VLA utilizza Adaptive Attention Pooling per ridurre la larghezza di banda visiva per fotogramma a un token, e produce un flusso latente e una traiettoria di azione sotto un unico obiettivo di flow-matching. I risultati empirici mostrano nessuna compromissione delle prestazioni.

Fatti principali

  • OneWM-VLA comprime ogni vista in un singolo token semantico per fotogramma.
  • Utilizza Adaptive Attention Pooling per la compressione.
  • Impiega un unico obiettivo di flow-matching per il flusso latente e la traiettoria di azione.
  • Affronta le limitazioni dei VLA potenziati da modelli del mondo esistenti.
  • Riduce la larghezza di banda visiva per fotogramma senza compromettere le prestazioni.
  • Pubblicato su arXiv con ID 2605.07931.
  • Si concentra su modelli visione-linguaggio-azione.
  • Mira a migliorare la pianificazione a lungo orizzonte.

Entità

Istituzioni

  • arXiv

Fonti