P2DNav: Quadro Gerarchico per la Navigazione Zero-Shot Visione-Linguaggio
P2DNav è un quadro gerarchico di recente proposta progettato per la navigazione zero-shot visione-linguaggio (VLN). Suddivide il processo di navigazione in due fasi chiave: selezione della direzione panoramica e ancoraggio locale da vista dall'alto. Il quadro include tre componenti: P2D, SDM e RRM. P2D è responsabile della selezione delle direzioni da un panorama a 360 gradi, mentre successivamente prevede target a livello di pixel utilizzando immagini RGB da vista dall'alto. Questo approccio innovativo mira a minimizzare gli errori causati da ragionamenti complessi durante la navigazione in ambienti sconosciuti. La ricerca è stata pubblicata su arXiv con l'identificatore 2605.19634.
Fatti principali
- P2DNav è un quadro gerarchico per la VLN zero-shot
- Decompone la navigazione in selezione della direzione panoramica e ancoraggio locale da vista dall'alto
- Componenti: P2D, SDM, RRM
- P2D seleziona la direzione da un panorama a 360 gradi
- Successivamente prevede il target a livello di pixel da RGB da vista dall'alto
- Mira a ridurre gli errori da ragionamento intrecciato
- Pubblicato su arXiv:2605.19634
- Affronta la VLN zero-shot in ambienti sconosciuti
Entità
Istituzioni
- arXiv