I VLM faticano con gli oggetti stampati in 3D nella comprensione robotica delle scene
Una recente indagine pubblicata su arXiv (2506.19579) esamina le prestazioni dei modelli linguistico-visivi (VLM) nell'adattamento a cambi di dominio all'interno della comprensione robotica di scene da singola vista. I ricercatori hanno stabilito un cambiamento di dominio fisico controllato confrontando utensili reali con versioni stampate in 3D geometricamente simili ma variabili per texture, colore e materiale. Hanno valutato VLM avanzati e implementabili localmente per la descrizione di oggetti in scene da tavolo catturate da un manipolatore robotico. I risultati indicano che, mentre i VLM descrivono efficacemente oggetti reali tipici, le loro prestazioni diminuiscono significativamente con oggetti stampati in 3D, anche quando le strutture sono simili. Inoltre, lo studio evidenzia gravi difetti nelle metriche di valutazione convenzionali, che possono trascurare i cambi di dominio o favorire didascalie fluenti ma inesatte.
Fatti principali
- Lo studio valuta la robustezza dei VLM ai cambi di dominio nella comprensione robotica di scene da singola vista
- Il cambiamento di dominio contrappone utensili reali a controparti stampate in 3D che differiscono per texture, colore e materiale
- Valuta VLM all'avanguardia implementabili localmente per la descrizione di oggetti
- Le prestazioni degradano su oggetti stampati in 3D nonostante forme simili
- Le metriche di valutazione standard non riescono a rilevare i cambi di dominio o premiano didascalie errate
- La ricerca è condotta su scene da tavolo catturate da un manipolatore robotico
- Pubblicato su arXiv con ID 2506.19579
- Focus sull'allineamento semantico e l'ancoraggio fattuale
Entità
Istituzioni
- arXiv