AVP: Primitivi Visivi per la Manipolazione Robotica

other · 2026-05-23

Viene proposta una nuova architettura chiamata AVP (Action with Visual Primitives) per la manipolazione robotica. Essa disaccoppia la comprensione visivo-linguistica dal controllo motorio, facendo sì che il VLM emetta token di primitivi visivi che condizionano un esperto di azione basato su flow-matching. Questo approccio mira a migliorare l'efficienza dell'apprendimento e la generalizzazione rispetto alle architetture entangled. Sono stati condotti esperimenti su robot reali per compiti di pick-and-place.

Fatti principali

AVP sta per Action with Visual Primitives
L'architettura è end-to-end
Il VLM inferisce il target dello stadio successivo ed emette token di primitivi visivi
L'esperto di azione basato su flow-matching è condizionato da questi token
La supervisione deriva dalla cinematica dell'end-effector
Esperimenti su robot reali per pick-and-place generale
ID del paper arXiv: 2605.22183
Tipo di annuncio: cross

Entità

—

Fonti

arXiv cs.AI — 2026-05-23