I VLM falliscono nella stima della posa relativa della fotocamera
Uno studio recente indica che i modelli visione-linguaggio (VLM) incontrano difficoltà nella stima delle pose relative della fotocamera (RCPE) a partire da coppie di immagini, un compito che valuta il ragionamento spaziale multi-vista. I ricercatori hanno affrontato l'RCPE come un problema di classificazione verbale discreta e hanno sviluppato due benchmark: VRRPI-Bench, derivato da fotogrammi RGB-D reali con movimenti della fotocamera incentrati sull'oggetto, e VRRPI-Diag, che si concentra sui singoli gradi di libertà di movimento. Mentre gli esseri umani hanno raggiunto una precisione di 0,91 e metodi geometrici specializzati come LoFTR hanno raggiunto 0,99, il punteggio più alto per i VLM è stato solo 0,66, con molti che si sono comportati quasi casualmente. Questa disparità persiste nonostante i VLM potenti si avvicinino alle prestazioni massime nei test su singola immagine. Hanno mostrato instabilità durante le inversioni sorgente-target (con una coerenza massima del 59,7%) e hanno faticato in scenari semplificati a singolo grado di libertà, in particolare con movimenti dell'asse ottico come rollio e traslazione in profondità. Questi risultati sottolineano una limitazione significativa nelle capacità di ragionamento spaziale degli attuali VLM attraverso diverse viste.
Fatti principali
- I VLM hanno difficoltà nella stima della posa relativa della fotocamera da coppie di immagini.
- Gli esseri umani raggiungono una precisione di 0,91 nel compito.
- La pipeline geometrica specializzata LoFTR raggiunge una precisione di 0,99.
- Il miglior VLM raggiunge solo una precisione di 0,66.
- La maggior parte dei VLM si comporta quasi casualmente nel compito.
- I VLM sono instabili sotto inversione sorgente-target (migliore coerenza del 59,7%).
- La debolezza persiste in impostazioni semplificate a singolo grado di libertà.
- I movimenti dell'asse ottico come rollio e traslazione in profondità sono particolarmente difficili.
Entità
—