I progressi di ObjectNav grazie agli LLM sono dovuti principalmente alla geometria, non al linguaggio
Una recente indagine mette in dubbio la convinzione che i grandi modelli linguistici (LLM) siano i principali responsabili dei recenti miglioramenti nella navigazione zero-shot verso oggetti (ObjectNav). Lo studio ha rivalutato il pipeline guidato da istruzioni, InstructNav, in un ambiente controllato da un rilevatore e ha presentato due varianti che non richiedono addestramento: l'Explorer di Prossimità di Frontiera (FPE) incentrato sulla geometria e l'efficiente Frontiera Euristica Semantica (SHF), che utilizza voti di frontiera di base dall'LLM. Nei test sui benchmark HM3D e MP3D, FPE ha eguagliato o superato il follower di istruzioni controllato dal rilevatore, ottenendo tempi di esecuzione più rapidi senza chiamate API. Nel frattempo, SHF ha dimostrato una precisione simile con un modello linguistico locale più compatto. I risultati suggeriscono che una geometria di frontiera ben progettata contribuisce in modo significativo ai progressi osservati, con il linguaggio che funge meglio da euristica semplice che da pianificatore completo. Il codice è disponibile all'URL specificato.
Fatti principali
- Lo studio rivaluta InstructNav in un ambiente controllato dal rilevatore.
- Introduce FPE (solo geometria) e SHF (euristica LLM leggera).
- FPE eguaglia o supera il follower di istruzioni senza chiamate API.
- SHF raggiunge una precisione comparabile con un prior linguistico più piccolo.
- I risultati suggeriscono che la geometria, non il linguaggio, guida i progressi di ObjectNav.
- Il linguaggio è meglio utilizzato come euristica leggera, non come pianificatore end-to-end.
- Benchmark utilizzati: HM3D e MP3D.
- Codice disponibile al link arXiv.
Entità
Istituzioni
- arXiv