ARTFEED — Contemporary Art Intelligence

AVP: Primitivi Visivi per la Manipolazione Robotica

other · 2026-05-23

Viene proposta una nuova architettura chiamata AVP (Action with Visual Primitives) per la manipolazione robotica. Essa disaccoppia la comprensione visivo-linguistica dal controllo motorio, facendo sì che il VLM emetta token di primitivi visivi che condizionano un esperto di azione basato su flow-matching. Questo approccio mira a migliorare l'efficienza dell'apprendimento e la generalizzazione rispetto alle architetture entangled. Sono stati condotti esperimenti su robot reali per compiti di pick-and-place.

Fatti principali

  • AVP sta per Action with Visual Primitives
  • L'architettura è end-to-end
  • Il VLM inferisce il target dello stadio successivo ed emette token di primitivi visivi
  • L'esperto di azione basato su flow-matching è condizionato da questi token
  • La supervisione deriva dalla cinematica dell'end-effector
  • Esperimenti su robot reali per pick-and-place generale
  • ID del paper arXiv: 2605.22183
  • Tipo di annuncio: cross

Entità

Fonti