ARTFEED — Contemporary Art Intelligence

StereoNav: Migliorare la Navigazione Visione-Linguaggio con Priorità sulla Posizione del Target

ai-technology · 2026-05-14

I ricercatori propongono StereoNav, un framework per migliorare le prestazioni nel mondo reale degli agenti di Navigazione Visione-Linguaggio (VLN). Gli attuali agenti VLN degradano in fase di implementazione a causa dell'instabilità percettiva e delle istruzioni vaghe. StereoNav introduce Priorità sulla Posizione del Target per una guida visiva stabile tra domini, affrontando il divario simulazione-realtà.

Fatti principali

  • La VLN è un pilastro dell'intelligenza incarnata.
  • Gli attuali agenti subiscono un degrado delle prestazioni dalla simulazione all'implementazione nel mondo reale.
  • Il degrado è dovuto all'instabilità percettiva (variazioni di illuminazione, motion blur) e a istruzioni poco specifiche.
  • I metodi esistenti aumentano la dimensione del modello e i dati di addestramento.
  • Il collo di bottiglia è la mancanza di un robusto ancoraggio spaziale e di priorità cross-dominio.
  • StereoNav è un robusto framework Visione-Linguaggio-Azione.
  • Le Priorità sulla Posizione del Target forniscono una guida visiva stabile invariante tra domini.
  • L'articolo è su arXiv con ID 2605.13328.

Entità

Istituzioni

  • arXiv

Fonti