VGAS: Selezione di Blocchi di Azioni Guidata dal Valore per l'Adattamento Few-Shot di Modelli VLA

ai-technology · 2026-05-25

I ricercatori propongono VGAS (Value-Guided Action-chunk Selection), un framework per l'adattamento few-shot di modelli Vision-Language-Action (VLA). I modelli VLA integrano il ragionamento multimodale con il controllo fisico, ma faticano ad adattarsi a nuovi compiti con dimostrazioni limitate a causa di ambiguità geometriche. VGAS affronta questo problema utilizzando un VLA fine-tuned come generatore di proposte ad alta recall e un critico Transformer chiamato Q-Chunk-Former per selezionare blocchi di azioni geometricamente precisi al momento dell'inferenza tramite selezione best-of-N. L'approccio mira a migliorare sia la fedeltà semantica che la precisione geometrica. L'articolo è disponibile su arXiv (2602.07399).

Fatti principali

VGAS sta per Value-Guided Action-chunk Selection.
Si rivolge all'adattamento few-shot di modelli Vision-Language-Action (VLA).
I modelli VLA collegano il ragionamento multimodale con il controllo fisico.
L'adattamento con dimostrazioni scarse è inaffidabile a causa di ambiguità geometriche.
VGAS utilizza un VLA fine-tuned come generatore di proposte ad alta recall.
Impiega un critico Transformer chiamato Q-Chunk-Former.
La selezione avviene tramite selezione best-of-N al momento dell'inferenza.
L'articolo è su arXiv con ID 2602.07399.

VGAS: Selezione di Blocchi di Azioni Guidata dal Valore per l'Adattamento Few-Shot di Modelli VLA

Fatti principali

Entità

Istituzioni

Fonti