TouchSafeBench: Benchmarking del Collision Grounding nei VLM per la Sicurezza Uomo-Robot
TouchSafeBench, un nuovo standard di valutazione, valuta i modelli visione-linguaggio (VLM) in termini di collision grounding, ovvero determinare se un robot si trova in una posizione sicura, in collisione o sul punto di collisione con una persona o un oggetto. Sviluppato utilizzando Habitat 3.0, questo benchmark presenta 2.940 scenari simulati di co-presenza indoor che coprono compiti di navigazione sociale e riorganizzazione sociale. Offre dati RGB-D multi-vista sincronizzati, mappe di traiettoria dall'alto, informazioni calibrate della telecamera ed etichette di contatto derivate dal simulatore. La ricerca enfatizza due compiti chiave per l'implementazione: identificare lo stato di sicurezza attuale e emettere avvisi su potenziali collisioni. I risultati sottolineano che una collaborazione efficace uomo-robot richiede più di semplici descrizioni visive; è necessario integrare i dati visivi con la geometria del robot, la prospettiva della telecamera, la disposizione della scena, la prossimità umana e il movimento nel tempo. L'articolo è disponibile su arXiv con ID 2605.31196.
Fatti principali
- TouchSafeBench è un benchmark basato sulla fisica per il collision grounding nei VLM.
- Costruito in Habitat 3.0.
- Contiene 2.940 episodi simulati di co-presenza indoor.
- Copre compiti di navigazione sociale e riorganizzazione sociale.
- Fornisce osservazioni RGB-D multi-vista sincronizzate, mappe di traiettoria dall'alto, metadati calibrati della telecamera ed etichette di contatto derivate dal simulatore.
- Due compiti orientati all'implementazione: classificare lo stato di sicurezza attuale e avvisare di una collisione imminente.
- Il collision grounding richiede di legare le osservazioni visive alla geometria del corpo del robot, al punto di vista della telecamera, alla disposizione della scena, alla prossimità umana e al movimento temporale.
- ID articolo: arXiv:2605.31196.
Entità
Istituzioni
- arXiv