BEV Consapevole della Geometria Migliora la Navigazione Visione-Linguaggio

ai-technology · 2026-05-23

Una nuova tecnica nota come Geometry-Aware BEV (GA-BEV) migliora il ragionamento spaziale e riduce al minimo le richieste computazionali nella Navigazione Visione-Linguaggio (VLN). I metodi tradizionali dipendono da video RGB densi pieni di numerosi token di patch e spesso mancano di un chiaro quadro spaziale. GA-BEV crea rappresentazioni di caratteristiche 3D semplificate a partire da dati RGB-D, proiettando elementi visivi in un ambiente tridimensionale e organizzandoli in un formato incentrato sull'agente. Fonde informazioni geometriche sia esplicite che implicite in sistemi di navigazione guidati da modelli linguistici di grandi dimensioni multimodali (MLLM). Inoltre, utilizza caratteristiche da un modello di base 3D pre-addestrato per incorporare approfondimenti strutturali da estesi sforzi di ricostruzione 3D. Questo approccio diminuisce la ridondanza dei token mantenendo l'integrità geometrica. La ricerca è disponibile su arXiv con ID 2605.22036.

Fatti principali

GA-BEV è una rappresentazione compatta di caratteristiche 3D per la VLN.
Utilizza input RGB-D per costruire mappe spaziali BEV.
Le caratteristiche visive sono proiettate nello spazio 3D e aggregate in un layout incentrato sull'agente.
La coerenza geometrica è preservata mentre la ridondanza dei token è ridotta.
Caratteristiche da un modello di base 3D pre-addestrato arricchiscono la comprensione geometrica.
Il metodo integra indizi geometrici espliciti e impliciti nella navigazione basata su MLLM.
Affronta il sovraccarico computazionale e il ragionamento spaziale limitato negli approcci VLN esistenti.
L'articolo è arXiv:2605.22036.

BEV Consapevole della Geometria Migliora la Navigazione Visione-Linguaggio

Fatti principali

Entità

Istituzioni

Fonti