GeoWorld-VLM migliora il ragionamento spaziale nei modelli visione-linguaggio

ai-technology · 2026-05-20

GeoWorld-VLM è un sistema all'avanguardia progettato per migliorare il ragionamento spaziale nei Modelli Visione-Linguaggio (VLM) sfruttando strutture geometriche provenienti da modelli di mondo video statici basati su condizioni della telecamera. Questa tecnica si concentra specificamente sull'encoder di immagini e sul proiettore multimodale, assicurando che le caratteristiche dell'immagine si allineino con le rappresentazioni intermedie del modello di mondo, lasciando intatta la struttura principale. Inserendo immagini, un prompt e un percorso della telecamera, il teacher del modello di mondo converte immagini statiche in segnali spaziali multivista dinamici. Questa innovazione affronta un problema chiave nei VLM, che spesso faticano a comprendere relazioni spaziali di base come "a sinistra di" o "dietro", a causa della perdita di informazioni 3D durante l'elaborazione delle caratteristiche. Puoi trovare la ricerca su arXiv con il codice 2605.16713.

Fatti principali

GeoWorld-VLM è un framework di distillazione lato VLM.
Trasferisce la struttura geometrica da modelli di mondo video congelati basati su condizioni della telecamera nei VLM.
Ottimizza solo l'encoder di immagini e il proiettore multimodale.
L'approccio allinea le caratteristiche dell'immagine dopo il proiettore con le rappresentazioni intermedie del modello di mondo.
Il backbone principale rimane congelato.
Il teacher del modello di mondo converte l'input visivo statico in segnali spaziali multivista sintetici.
I VLM spesso falliscono nelle relazioni spaziali come sinistra di, su, dietro e tra.
L'articolo è disponibile su arXiv con ID 2605.16713.

GeoWorld-VLM migliora il ragionamento spaziale nei modelli visione-linguaggio

Fatti principali

Entità

Istituzioni

Fonti