ARTFEED — Contemporary Art Intelligence

P2DNav: Quadro Gerarchico per la Navigazione Zero-Shot Visione-Linguaggio

ai-technology · 2026-05-20

P2DNav è un quadro gerarchico di recente proposta progettato per la navigazione zero-shot visione-linguaggio (VLN). Suddivide il processo di navigazione in due fasi chiave: selezione della direzione panoramica e ancoraggio locale da vista dall'alto. Il quadro include tre componenti: P2D, SDM e RRM. P2D è responsabile della selezione delle direzioni da un panorama a 360 gradi, mentre successivamente prevede target a livello di pixel utilizzando immagini RGB da vista dall'alto. Questo approccio innovativo mira a minimizzare gli errori causati da ragionamenti complessi durante la navigazione in ambienti sconosciuti. La ricerca è stata pubblicata su arXiv con l'identificatore 2605.19634.

Fatti principali

  • P2DNav è un quadro gerarchico per la VLN zero-shot
  • Decompone la navigazione in selezione della direzione panoramica e ancoraggio locale da vista dall'alto
  • Componenti: P2D, SDM, RRM
  • P2D seleziona la direzione da un panorama a 360 gradi
  • Successivamente prevede il target a livello di pixel da RGB da vista dall'alto
  • Mira a ridurre gli errori da ragionamento intrecciato
  • Pubblicato su arXiv:2605.19634
  • Affronta la VLN zero-shot in ambienti sconosciuti

Entità

Istituzioni

  • arXiv

Fonti