ARTFEED — Contemporary Art Intelligence

VGAS: Selezione di Blocchi di Azioni Guidata dal Valore per l'Adattamento Few-Shot di Modelli VLA

ai-technology · 2026-05-25

I ricercatori propongono VGAS (Value-Guided Action-chunk Selection), un framework per l'adattamento few-shot di modelli Vision-Language-Action (VLA). I modelli VLA integrano il ragionamento multimodale con il controllo fisico, ma faticano ad adattarsi a nuovi compiti con dimostrazioni limitate a causa di ambiguità geometriche. VGAS affronta questo problema utilizzando un VLA fine-tuned come generatore di proposte ad alta recall e un critico Transformer chiamato Q-Chunk-Former per selezionare blocchi di azioni geometricamente precisi al momento dell'inferenza tramite selezione best-of-N. L'approccio mira a migliorare sia la fedeltà semantica che la precisione geometrica. L'articolo è disponibile su arXiv (2602.07399).

Fatti principali

  • VGAS sta per Value-Guided Action-chunk Selection.
  • Si rivolge all'adattamento few-shot di modelli Vision-Language-Action (VLA).
  • I modelli VLA collegano il ragionamento multimodale con il controllo fisico.
  • L'adattamento con dimostrazioni scarse è inaffidabile a causa di ambiguità geometriche.
  • VGAS utilizza un VLA fine-tuned come generatore di proposte ad alta recall.
  • Impiega un critico Transformer chiamato Q-Chunk-Former.
  • La selezione avviene tramite selezione best-of-N al momento dell'inferenza.
  • L'articolo è su arXiv con ID 2602.07399.

Entità

Istituzioni

  • arXiv

Fonti