ARTFEED — Contemporary Art Intelligence

GoViG: Generazione di Istruzioni di Navigazione da Dati Visivi Egocentrici

ai-technology · 2026-04-30

I ricercatori hanno presentato un nuovo compito chiamato Generazione di Istruzioni di Navigazione Visiva Goal-Condizionata (GoViG), che crea direttive di navigazione basandosi esclusivamente su input visivi egocentrici sia dello stato iniziale che di quello target. A differenza delle tecniche precedenti che dipendono da dati strutturati come etichette semantiche o mappe ambientali, GoViG sfrutta immagini egocentriche non elaborate, migliorando la sua adattabilità ad ambienti sconosciuti. Questo metodo suddivide il compito in due componenti: visualizzazione della navigazione, che prevede le fasi visive intermedie tra la vista iniziale e quella target, e generazione di istruzioni, che formula indicazioni coerenti basate su immagini osservate e previste. Entrambe le componenti sono incorporate in un modello linguistico multimodale autoregressivo (LLM) progettato con obiettivi specifici per la precisione spaziale e la chiarezza linguistica. Inoltre, l'articolo presenta due dataset multimodali per la valutazione. Questa ricerca fa progredire la navigazione visione-linguaggio facilitando la creazione di istruzioni senza informazioni cartografiche preliminari, potenzialmente a beneficio delle tecnologie assistive e dei sistemi autonomi. L'articolo è disponibile su arXiv con ID 2508.09547.

Fatti principali

  • GoViG genera istruzioni di navigazione da osservazioni visive egocentriche degli stati iniziale e target.
  • Il metodo non utilizza annotazioni semantiche o mappe ambientali.
  • Suddivide il compito in visualizzazione della navigazione e generazione di istruzioni.
  • Entrambi i sottocompiti utilizzano un LLM multimodale autoregressivo.
  • Gli obiettivi di addestramento garantiscono precisione spaziale e chiarezza linguistica.
  • Vengono introdotti due dataset multimodali per la valutazione.
  • L'articolo è su arXiv con ID 2508.09547.
  • Migliora l'adattabilità ad ambienti non visti e non strutturati.

Entità

Istituzioni

  • arXiv

Fonti