GoViG: Generazione di Istruzioni di Navigazione da Dati Visivi Egocentrici
I ricercatori hanno presentato un nuovo compito chiamato Generazione di Istruzioni di Navigazione Visiva Goal-Condizionata (GoViG), che crea direttive di navigazione basandosi esclusivamente su input visivi egocentrici sia dello stato iniziale che di quello target. A differenza delle tecniche precedenti che dipendono da dati strutturati come etichette semantiche o mappe ambientali, GoViG sfrutta immagini egocentriche non elaborate, migliorando la sua adattabilità ad ambienti sconosciuti. Questo metodo suddivide il compito in due componenti: visualizzazione della navigazione, che prevede le fasi visive intermedie tra la vista iniziale e quella target, e generazione di istruzioni, che formula indicazioni coerenti basate su immagini osservate e previste. Entrambe le componenti sono incorporate in un modello linguistico multimodale autoregressivo (LLM) progettato con obiettivi specifici per la precisione spaziale e la chiarezza linguistica. Inoltre, l'articolo presenta due dataset multimodali per la valutazione. Questa ricerca fa progredire la navigazione visione-linguaggio facilitando la creazione di istruzioni senza informazioni cartografiche preliminari, potenzialmente a beneficio delle tecnologie assistive e dei sistemi autonomi. L'articolo è disponibile su arXiv con ID 2508.09547.
Fatti principali
- GoViG genera istruzioni di navigazione da osservazioni visive egocentriche degli stati iniziale e target.
- Il metodo non utilizza annotazioni semantiche o mappe ambientali.
- Suddivide il compito in visualizzazione della navigazione e generazione di istruzioni.
- Entrambi i sottocompiti utilizzano un LLM multimodale autoregressivo.
- Gli obiettivi di addestramento garantiscono precisione spaziale e chiarezza linguistica.
- Vengono introdotti due dataset multimodali per la valutazione.
- L'articolo è su arXiv con ID 2508.09547.
- Migliora l'adattabilità ad ambienti non visti e non strutturati.
Entità
Istituzioni
- arXiv