StereoNav: Migliorare la Navigazione Visione-Linguaggio con Priorità sulla Posizione del Target
I ricercatori propongono StereoNav, un framework per migliorare le prestazioni nel mondo reale degli agenti di Navigazione Visione-Linguaggio (VLN). Gli attuali agenti VLN degradano in fase di implementazione a causa dell'instabilità percettiva e delle istruzioni vaghe. StereoNav introduce Priorità sulla Posizione del Target per una guida visiva stabile tra domini, affrontando il divario simulazione-realtà.
Fatti principali
- La VLN è un pilastro dell'intelligenza incarnata.
- Gli attuali agenti subiscono un degrado delle prestazioni dalla simulazione all'implementazione nel mondo reale.
- Il degrado è dovuto all'instabilità percettiva (variazioni di illuminazione, motion blur) e a istruzioni poco specifiche.
- I metodi esistenti aumentano la dimensione del modello e i dati di addestramento.
- Il collo di bottiglia è la mancanza di un robusto ancoraggio spaziale e di priorità cross-dominio.
- StereoNav è un robusto framework Visione-Linguaggio-Azione.
- Le Priorità sulla Posizione del Target forniscono una guida visiva stabile invariante tra domini.
- L'articolo è su arXiv con ID 2605.13328.
Entità
Istituzioni
- arXiv