VGAS: Selezione di Blocchi di Azioni Guidata dal Valore per l'Adattamento Few-Shot di Modelli VLA
I ricercatori propongono VGAS (Value-Guided Action-chunk Selection), un framework per l'adattamento few-shot di modelli Vision-Language-Action (VLA). I modelli VLA integrano il ragionamento multimodale con il controllo fisico, ma faticano ad adattarsi a nuovi compiti con dimostrazioni limitate a causa di ambiguità geometriche. VGAS affronta questo problema utilizzando un VLA fine-tuned come generatore di proposte ad alta recall e un critico Transformer chiamato Q-Chunk-Former per selezionare blocchi di azioni geometricamente precisi al momento dell'inferenza tramite selezione best-of-N. L'approccio mira a migliorare sia la fedeltà semantica che la precisione geometrica. L'articolo è disponibile su arXiv (2602.07399).
Fatti principali
- VGAS sta per Value-Guided Action-chunk Selection.
- Si rivolge all'adattamento few-shot di modelli Vision-Language-Action (VLA).
- I modelli VLA collegano il ragionamento multimodale con il controllo fisico.
- L'adattamento con dimostrazioni scarse è inaffidabile a causa di ambiguità geometriche.
- VGAS utilizza un VLA fine-tuned come generatore di proposte ad alta recall.
- Impiega un critico Transformer chiamato Q-Chunk-Former.
- La selezione avviene tramite selezione best-of-N al momento dell'inferenza.
- L'articolo è su arXiv con ID 2602.07399.
Entità
Istituzioni
- arXiv