I VLM falliscono nella stima della posa relativa della fotocamera

ai-technology · 2026-05-01

Uno studio recente indica che i modelli visione-linguaggio (VLM) incontrano difficoltà nella stima delle pose relative della fotocamera (RCPE) a partire da coppie di immagini, un compito che valuta il ragionamento spaziale multi-vista. I ricercatori hanno affrontato l'RCPE come un problema di classificazione verbale discreta e hanno sviluppato due benchmark: VRRPI-Bench, derivato da fotogrammi RGB-D reali con movimenti della fotocamera incentrati sull'oggetto, e VRRPI-Diag, che si concentra sui singoli gradi di libertà di movimento. Mentre gli esseri umani hanno raggiunto una precisione di 0,91 e metodi geometrici specializzati come LoFTR hanno raggiunto 0,99, il punteggio più alto per i VLM è stato solo 0,66, con molti che si sono comportati quasi casualmente. Questa disparità persiste nonostante i VLM potenti si avvicinino alle prestazioni massime nei test su singola immagine. Hanno mostrato instabilità durante le inversioni sorgente-target (con una coerenza massima del 59,7%) e hanno faticato in scenari semplificati a singolo grado di libertà, in particolare con movimenti dell'asse ottico come rollio e traslazione in profondità. Questi risultati sottolineano una limitazione significativa nelle capacità di ragionamento spaziale degli attuali VLM attraverso diverse viste.

Fatti principali

I VLM hanno difficoltà nella stima della posa relativa della fotocamera da coppie di immagini.
Gli esseri umani raggiungono una precisione di 0,91 nel compito.
La pipeline geometrica specializzata LoFTR raggiunge una precisione di 0,99.
Il miglior VLM raggiunge solo una precisione di 0,66.
La maggior parte dei VLM si comporta quasi casualmente nel compito.
I VLM sono instabili sotto inversione sorgente-target (migliore coerenza del 59,7%).
La debolezza persiste in impostazioni semplificate a singolo grado di libertà.
I movimenti dell'asse ottico come rollio e traslazione in profondità sono particolarmente difficili.

Entità

—

Fonti

arXiv cs.AI — 2026-05-01