ARTFEED — Contemporary Art Intelligence

GeoWorld-VLM migliora il ragionamento spaziale nei modelli visione-linguaggio

ai-technology · 2026-05-20

GeoWorld-VLM è un sistema all'avanguardia progettato per migliorare il ragionamento spaziale nei Modelli Visione-Linguaggio (VLM) sfruttando strutture geometriche provenienti da modelli di mondo video statici basati su condizioni della telecamera. Questa tecnica si concentra specificamente sull'encoder di immagini e sul proiettore multimodale, assicurando che le caratteristiche dell'immagine si allineino con le rappresentazioni intermedie del modello di mondo, lasciando intatta la struttura principale. Inserendo immagini, un prompt e un percorso della telecamera, il teacher del modello di mondo converte immagini statiche in segnali spaziali multivista dinamici. Questa innovazione affronta un problema chiave nei VLM, che spesso faticano a comprendere relazioni spaziali di base come "a sinistra di" o "dietro", a causa della perdita di informazioni 3D durante l'elaborazione delle caratteristiche. Puoi trovare la ricerca su arXiv con il codice 2605.16713.

Fatti principali

  • GeoWorld-VLM è un framework di distillazione lato VLM.
  • Trasferisce la struttura geometrica da modelli di mondo video congelati basati su condizioni della telecamera nei VLM.
  • Ottimizza solo l'encoder di immagini e il proiettore multimodale.
  • L'approccio allinea le caratteristiche dell'immagine dopo il proiettore con le rappresentazioni intermedie del modello di mondo.
  • Il backbone principale rimane congelato.
  • Il teacher del modello di mondo converte l'input visivo statico in segnali spaziali multivista sintetici.
  • I VLM spesso falliscono nelle relazioni spaziali come sinistra di, su, dietro e tra.
  • L'articolo è disponibile su arXiv con ID 2605.16713.

Entità

Istituzioni

  • arXiv

Fonti