GeoWorld-VLM migliora il ragionamento spaziale nei modelli visione-linguaggio
GeoWorld-VLM è un sistema all'avanguardia progettato per migliorare il ragionamento spaziale nei Modelli Visione-Linguaggio (VLM) sfruttando strutture geometriche provenienti da modelli di mondo video statici basati su condizioni della telecamera. Questa tecnica si concentra specificamente sull'encoder di immagini e sul proiettore multimodale, assicurando che le caratteristiche dell'immagine si allineino con le rappresentazioni intermedie del modello di mondo, lasciando intatta la struttura principale. Inserendo immagini, un prompt e un percorso della telecamera, il teacher del modello di mondo converte immagini statiche in segnali spaziali multivista dinamici. Questa innovazione affronta un problema chiave nei VLM, che spesso faticano a comprendere relazioni spaziali di base come "a sinistra di" o "dietro", a causa della perdita di informazioni 3D durante l'elaborazione delle caratteristiche. Puoi trovare la ricerca su arXiv con il codice 2605.16713.
Fatti principali
- GeoWorld-VLM è un framework di distillazione lato VLM.
- Trasferisce la struttura geometrica da modelli di mondo video congelati basati su condizioni della telecamera nei VLM.
- Ottimizza solo l'encoder di immagini e il proiettore multimodale.
- L'approccio allinea le caratteristiche dell'immagine dopo il proiettore con le rappresentazioni intermedie del modello di mondo.
- Il backbone principale rimane congelato.
- Il teacher del modello di mondo converte l'input visivo statico in segnali spaziali multivista sintetici.
- I VLM spesso falliscono nelle relazioni spaziali come sinistra di, su, dietro e tra.
- L'articolo è disponibile su arXiv con ID 2605.16713.
Entità
Istituzioni
- arXiv