SpatialAct Benchmark Testa il Gap tra Ragionamento Spaziale e Azione nei VLM
Un nuovo benchmark chiamato SpatialAct è stato sviluppato da ricercatori per valutare il ragionamento spaziale condizionato all'azione nei modelli visione-linguaggio (VLM) all'interno di ambienti tridimensionali. Questo benchmark indaga la capacità dei VLM di creare una comprensione spaziale coerente, eseguire azioni basate su tale comprensione e migliorare tali azioni attraverso feedback multi-turno. Presenta un'impostazione di raffinamento interattivo multi-turno, un compito di rilevamento e correzione di errori a passo singolo e cinque compiti di abilità spaziale essenziali volti a identificare le carenze del modello. I risultati indicano un divario significativo tra ragionamento e azione, rivelando che mentre i VLM eccellono nella percezione spaziale e nel ragionamento basati sull'osservazione, incontrano difficoltà nel tradurre efficacemente questo ragionamento in azioni. La ricerca sottolinea i limiti degli attuali VLM nella gestione di compiti spaziali del mondo reale.
Fatti principali
- SpatialAct è un benchmark basato su simulatore per il ragionamento spaziale condizionato all'azione in scene 3D.
- Il benchmark include compiti di raffinamento interattivo multi-turno e di rilevamento e correzione di errori a passo singolo.
- Cinque compiti di abilità spaziale fondamentali vengono utilizzati per diagnosticare le cause alla base dei fallimenti del modello.
- Gli esperimenti rivelano un chiaro divario tra ragionamento e azione nei VLM.
- I VLM mostrano prestazioni promettenti nella percezione spaziale e nel ragionamento condizionati all'osservazione.
- Lo studio si chiede se i VLM possano costruire una comprensione spaziale coerente e agire di conseguenza.
- Il feedback multi-turno viene utilizzato per affinare le azioni nel benchmark.
- La ricerca è stata pubblicata su arXiv con identificatore 2605.31148.
Entità
Istituzioni
- arXiv