ERGeoBench: Benchmarking della Geo-Localizzazione Embodied nei Modelli Linguistici Multimodali
I ricercatori hanno introdotto un nuovo strumento diagnostico chiamato ERGeoBench per valutare quanto bene i modelli linguistici multimodali di grandi dimensioni (MLLM) si comportano nella geo-localizzazione basata sulla visione. Include 2.207 immagini di street-view provenienti da varie località in tutto il mondo e testa i modelli in tre scenari: vista singola, vista panoramica e vista embodied, che consente agli agenti di cambiare prospettiva tramite regolazioni di imbardata, beccheggio e zoom. Il benchmark si concentra su quattro abilità principali: percezione di base, consapevolezza spaziale, ragionamento di buon senso e ragionamento di geo-localizzazione. I test iniziali su vari MLLM mostrano che, sebbene questi modelli comprendano idee geografiche ampie, hanno difficoltà con compiti percettivi specifici, localizzazione precisa e mantenimento della coerenza spaziale tra diverse viste. Questo strumento colma una lacuna nella valutazione della geo-localizzazione embodied, un'area che non è stata ancora esplorata a fondo.
Fatti principali
- ERGeoBench è un benchmark diagnostico per la geo-localizzazione embodied basata sulla visione.
- Contiene 2.207 panorami street-view distribuiti globalmente.
- Valuta i modelli in contesti di vista singola, vista panoramica e vista embodied.
- Misura la percezione fondamentale, la consapevolezza spaziale, il ragionamento di buon senso e il ragionamento di geo-localizzazione.
- Gli attuali MLLM possono inferire semantiche geografiche di alto livello ma hanno difficoltà con operazioni a grana fine.
- I modelli hanno difficoltà con la localizzazione metrica e la coerenza spaziale tra le viste.
- Il benchmark colma una lacuna nella valutazione a grana fine per la geo-localizzazione embodied.
- Lo studio è stato pubblicato su arXiv con ID 2605.31251.
Entità
Istituzioni
- arXiv