V-VLAPS: La pianificazione guidata dal valore migliora i modelli VLA per la robotica
I ricercatori introducono V-VLAPS (Value-Guided Vision-Language-Action Planning and Search), un metodo che potenzia i modelli visione-linguaggio-azione (VLA) per la manipolazione robotica aggiungendo una testa di valore leggera addestrata su rollout offline. Questa testa di valore prevede i rendimenti Monte Carlo, guidando la ricerca ad albero Monte Carlo verso rami con valore più alto. L'approccio affronta i fallimenti delle politiche VLA reattive sotto cambiamento di distribuzione e compiti a lungo orizzonte, dove i metodi di pianificazione precedenti si basavano su priorità di policy ed esplorazione basata sul conteggio delle visite senza segnali di valore appresi. Il lavoro si basa sulla scoperta che le rappresentazioni VLA codificano il successo e il fallimento dei rollout, consentendo la stima del valore durante la pianificazione.
Fatti principali
- V-VLAPS potenzia la pianificazione guidata da VLA con una testa di valore leggera
- La testa di valore è addestrata su rollout VLA offline per prevedere i rendimenti Monte Carlo
- Le previsioni guidano la ricerca ad albero Monte Carlo verso rami con valore più alto
- Le politiche VLA reattive falliscono sotto cambiamento di distribuzione e compiti a lungo orizzonte
- I metodi di pianificazione precedenti mancavano di segnali di valore appresi per correggere azioni di policy scadenti
- Le rappresentazioni VLA codificano informazioni sul successo e fallimento dei rollout
- Il metodo mira a migliorare l'esecuzione della manipolazione robotica
- Articolo disponibile su arXiv con ID 2601.00969
Entità
Istituzioni
- arXiv