ARTFEED — Contemporary Art Intelligence

IntentVLA: Modellazione dell'Intento a Breve Termine per la Manipolazione Robotica con Aliasing

ai-technology · 2026-05-16

Un nuovo framework di IA, IntentVLA, affronta il problema dell'aliasing delle osservazioni nell'apprendimento per imitazione robotica, dove input visivo-linguistici simili possono portare ad azioni diverse a causa di intenti umani variabili. Il sistema codifica la storia visiva recente in una rappresentazione compatta dell'intento a breve termine per condizionare la generazione di chunk di azioni, riducendo i conflitti tra chunk. I ricercatori introducono anche AliasBench, un benchmark di 12 compiti progettato per isolare l'aliasing delle osservazioni a breve termine. I test su AliasBench, SimplerEnv, LIBERO e RoboCasa mostrano miglioramenti nella coerenza del rollout.

Fatti principali

  • IntentVLA è un framework VLA condizionato dalla storia
  • Codifica le osservazioni visive recenti in una rappresentazione dell'intento a breve termine
  • AliasBench è un benchmark di 12 compiti sensibile all'ambiguità su RoboTwin2
  • Test condotti su AliasBench, SimplerEnv, LIBERO e RoboCasa
  • Il framework migliora la coerenza del rollout sotto osservabilità parziale
  • Dimostratori umani agiscono con diversi intenti a breve termine causando dati multimodali
  • Le politiche VLA esistenti condizionate dal frame possono ricampionare diversi intenti tra passi di ri-pianificazione
  • L'articolo è disponibile su arXiv con ID 2605.14712

Entità

Istituzioni

  • arXiv

Fonti