ARTFEED — Contemporary Art Intelligence

ERGeoBench: Benchmarking della Geo-Localizzazione Embodied nei Modelli Linguistici Multimodali

ai-technology · 2026-06-01

I ricercatori hanno introdotto un nuovo strumento diagnostico chiamato ERGeoBench per valutare quanto bene i modelli linguistici multimodali di grandi dimensioni (MLLM) si comportano nella geo-localizzazione basata sulla visione. Include 2.207 immagini di street-view provenienti da varie località in tutto il mondo e testa i modelli in tre scenari: vista singola, vista panoramica e vista embodied, che consente agli agenti di cambiare prospettiva tramite regolazioni di imbardata, beccheggio e zoom. Il benchmark si concentra su quattro abilità principali: percezione di base, consapevolezza spaziale, ragionamento di buon senso e ragionamento di geo-localizzazione. I test iniziali su vari MLLM mostrano che, sebbene questi modelli comprendano idee geografiche ampie, hanno difficoltà con compiti percettivi specifici, localizzazione precisa e mantenimento della coerenza spaziale tra diverse viste. Questo strumento colma una lacuna nella valutazione della geo-localizzazione embodied, un'area che non è stata ancora esplorata a fondo.

Fatti principali

  • ERGeoBench è un benchmark diagnostico per la geo-localizzazione embodied basata sulla visione.
  • Contiene 2.207 panorami street-view distribuiti globalmente.
  • Valuta i modelli in contesti di vista singola, vista panoramica e vista embodied.
  • Misura la percezione fondamentale, la consapevolezza spaziale, il ragionamento di buon senso e il ragionamento di geo-localizzazione.
  • Gli attuali MLLM possono inferire semantiche geografiche di alto livello ma hanno difficoltà con operazioni a grana fine.
  • I modelli hanno difficoltà con la localizzazione metrica e la coerenza spaziale tra le viste.
  • Il benchmark colma una lacuna nella valutazione a grana fine per la geo-localizzazione embodied.
  • Lo studio è stato pubblicato su arXiv con ID 2605.31251.

Entità

Istituzioni

  • arXiv

Fonti