IntentVLA: Modellazione dell'Intento a Breve Termine per la Manipolazione Robotica con Aliasing
Un nuovo framework di IA, IntentVLA, affronta il problema dell'aliasing delle osservazioni nell'apprendimento per imitazione robotica, dove input visivo-linguistici simili possono portare ad azioni diverse a causa di intenti umani variabili. Il sistema codifica la storia visiva recente in una rappresentazione compatta dell'intento a breve termine per condizionare la generazione di chunk di azioni, riducendo i conflitti tra chunk. I ricercatori introducono anche AliasBench, un benchmark di 12 compiti progettato per isolare l'aliasing delle osservazioni a breve termine. I test su AliasBench, SimplerEnv, LIBERO e RoboCasa mostrano miglioramenti nella coerenza del rollout.
Fatti principali
- IntentVLA è un framework VLA condizionato dalla storia
- Codifica le osservazioni visive recenti in una rappresentazione dell'intento a breve termine
- AliasBench è un benchmark di 12 compiti sensibile all'ambiguità su RoboTwin2
- Test condotti su AliasBench, SimplerEnv, LIBERO e RoboCasa
- Il framework migliora la coerenza del rollout sotto osservabilità parziale
- Dimostratori umani agiscono con diversi intenti a breve termine causando dati multimodali
- Le politiche VLA esistenti condizionate dal frame possono ricampionare diversi intenti tra passi di ri-pianificazione
- L'articolo è disponibile su arXiv con ID 2605.14712
Entità
Istituzioni
- arXiv