OneWM-VLA: Compressione del Flusso Visivo in un Singolo Token per Fotogramma

ai-technology · 2026-05-11

I ricercatori propongono OneWM-VLA, un metodo che comprime ogni fotogramma video in un singolo token semantico per modelli visione-linguaggio-azione (VLA) potenziati da modelli del mondo. Gli approcci esistenti trasmettono flussi visivi ad alta larghezza di banda ai moduli del mondo, lasciando poco esaminata la rappresentazione per fotogramma e l'accoppiamento delle azioni sotto vincoli di adattamento limitati. OneWM-VLA utilizza Adaptive Attention Pooling per ridurre la larghezza di banda visiva per fotogramma a un token, e produce un flusso latente e una traiettoria di azione sotto un unico obiettivo di flow-matching. I risultati empirici mostrano nessuna compromissione delle prestazioni.

Fatti principali

OneWM-VLA comprime ogni vista in un singolo token semantico per fotogramma.
Utilizza Adaptive Attention Pooling per la compressione.
Impiega un unico obiettivo di flow-matching per il flusso latente e la traiettoria di azione.
Affronta le limitazioni dei VLA potenziati da modelli del mondo esistenti.
Riduce la larghezza di banda visiva per fotogramma senza compromettere le prestazioni.
Pubblicato su arXiv con ID 2605.07931.
Si concentra su modelli visione-linguaggio-azione.
Mira a migliorare la pianificazione a lungo orizzonte.

OneWM-VLA: Compressione del Flusso Visivo in un Singolo Token per Fotogramma

Fatti principali

Entità

Istituzioni

Fonti