IntentVLA: Modellazione dell'Intento a Breve Termine per la Manipolazione Robotica con Aliasing

ai-technology · 2026-05-16

Un nuovo framework di IA, IntentVLA, affronta il problema dell'aliasing delle osservazioni nell'apprendimento per imitazione robotica, dove input visivo-linguistici simili possono portare ad azioni diverse a causa di intenti umani variabili. Il sistema codifica la storia visiva recente in una rappresentazione compatta dell'intento a breve termine per condizionare la generazione di chunk di azioni, riducendo i conflitti tra chunk. I ricercatori introducono anche AliasBench, un benchmark di 12 compiti progettato per isolare l'aliasing delle osservazioni a breve termine. I test su AliasBench, SimplerEnv, LIBERO e RoboCasa mostrano miglioramenti nella coerenza del rollout.

Fatti principali

IntentVLA è un framework VLA condizionato dalla storia
Codifica le osservazioni visive recenti in una rappresentazione dell'intento a breve termine
AliasBench è un benchmark di 12 compiti sensibile all'ambiguità su RoboTwin2
Test condotti su AliasBench, SimplerEnv, LIBERO e RoboCasa
Il framework migliora la coerenza del rollout sotto osservabilità parziale
Dimostratori umani agiscono con diversi intenti a breve termine causando dati multimodali
Le politiche VLA esistenti condizionate dal frame possono ricampionare diversi intenti tra passi di ri-pianificazione
L'articolo è disponibile su arXiv con ID 2605.14712

IntentVLA: Modellazione dell'Intento a Breve Termine per la Manipolazione Robotica con Aliasing

Fatti principali

Entità

Istituzioni

Fonti