AVP: Primitivi Visivi per la Manipolazione Robotica
Viene proposta una nuova architettura chiamata AVP (Action with Visual Primitives) per la manipolazione robotica. Essa disaccoppia la comprensione visivo-linguistica dal controllo motorio, facendo sì che il VLM emetta token di primitivi visivi che condizionano un esperto di azione basato su flow-matching. Questo approccio mira a migliorare l'efficienza dell'apprendimento e la generalizzazione rispetto alle architetture entangled. Sono stati condotti esperimenti su robot reali per compiti di pick-and-place.
Fatti principali
- AVP sta per Action with Visual Primitives
- L'architettura è end-to-end
- Il VLM inferisce il target dello stadio successivo ed emette token di primitivi visivi
- L'esperto di azione basato su flow-matching è condizionato da questi token
- La supervisione deriva dalla cinematica dell'end-effector
- Esperimenti su robot reali per pick-and-place generale
- ID del paper arXiv: 2605.22183
- Tipo di annuncio: cross
Entità
—