GoViG: Generazione di Istruzioni di Navigazione da Dati Visivi Egocentrici

ai-technology · 2026-04-30

I ricercatori hanno presentato un nuovo compito chiamato Generazione di Istruzioni di Navigazione Visiva Goal-Condizionata (GoViG), che crea direttive di navigazione basandosi esclusivamente su input visivi egocentrici sia dello stato iniziale che di quello target. A differenza delle tecniche precedenti che dipendono da dati strutturati come etichette semantiche o mappe ambientali, GoViG sfrutta immagini egocentriche non elaborate, migliorando la sua adattabilità ad ambienti sconosciuti. Questo metodo suddivide il compito in due componenti: visualizzazione della navigazione, che prevede le fasi visive intermedie tra la vista iniziale e quella target, e generazione di istruzioni, che formula indicazioni coerenti basate su immagini osservate e previste. Entrambe le componenti sono incorporate in un modello linguistico multimodale autoregressivo (LLM) progettato con obiettivi specifici per la precisione spaziale e la chiarezza linguistica. Inoltre, l'articolo presenta due dataset multimodali per la valutazione. Questa ricerca fa progredire la navigazione visione-linguaggio facilitando la creazione di istruzioni senza informazioni cartografiche preliminari, potenzialmente a beneficio delle tecnologie assistive e dei sistemi autonomi. L'articolo è disponibile su arXiv con ID 2508.09547.

Fatti principali

GoViG genera istruzioni di navigazione da osservazioni visive egocentriche degli stati iniziale e target.
Il metodo non utilizza annotazioni semantiche o mappe ambientali.
Suddivide il compito in visualizzazione della navigazione e generazione di istruzioni.
Entrambi i sottocompiti utilizzano un LLM multimodale autoregressivo.
Gli obiettivi di addestramento garantiscono precisione spaziale e chiarezza linguistica.
Vengono introdotti due dataset multimodali per la valutazione.
L'articolo è su arXiv con ID 2508.09547.
Migliora l'adattabilità ad ambienti non visti e non strutturati.

GoViG: Generazione di Istruzioni di Navigazione da Dati Visivi Egocentrici

Fatti principali

Entità

Istituzioni

Fonti