OneWM-VLA: Compressione del Flusso Visivo in un Singolo Token per Fotogramma
I ricercatori propongono OneWM-VLA, un metodo che comprime ogni fotogramma video in un singolo token semantico per modelli visione-linguaggio-azione (VLA) potenziati da modelli del mondo. Gli approcci esistenti trasmettono flussi visivi ad alta larghezza di banda ai moduli del mondo, lasciando poco esaminata la rappresentazione per fotogramma e l'accoppiamento delle azioni sotto vincoli di adattamento limitati. OneWM-VLA utilizza Adaptive Attention Pooling per ridurre la larghezza di banda visiva per fotogramma a un token, e produce un flusso latente e una traiettoria di azione sotto un unico obiettivo di flow-matching. I risultati empirici mostrano nessuna compromissione delle prestazioni.
Fatti principali
- OneWM-VLA comprime ogni vista in un singolo token semantico per fotogramma.
- Utilizza Adaptive Attention Pooling per la compressione.
- Impiega un unico obiettivo di flow-matching per il flusso latente e la traiettoria di azione.
- Affronta le limitazioni dei VLA potenziati da modelli del mondo esistenti.
- Riduce la larghezza di banda visiva per fotogramma senza compromettere le prestazioni.
- Pubblicato su arXiv con ID 2605.07931.
- Si concentra su modelli visione-linguaggio-azione.
- Mira a migliorare la pianificazione a lungo orizzonte.
Entità
Istituzioni
- arXiv