V-VLAPS: La pianificazione guidata dal valore migliora i modelli VLA per la robotica

ai-technology · 2026-05-25

I ricercatori introducono V-VLAPS (Value-Guided Vision-Language-Action Planning and Search), un metodo che potenzia i modelli visione-linguaggio-azione (VLA) per la manipolazione robotica aggiungendo una testa di valore leggera addestrata su rollout offline. Questa testa di valore prevede i rendimenti Monte Carlo, guidando la ricerca ad albero Monte Carlo verso rami con valore più alto. L'approccio affronta i fallimenti delle politiche VLA reattive sotto cambiamento di distribuzione e compiti a lungo orizzonte, dove i metodi di pianificazione precedenti si basavano su priorità di policy ed esplorazione basata sul conteggio delle visite senza segnali di valore appresi. Il lavoro si basa sulla scoperta che le rappresentazioni VLA codificano il successo e il fallimento dei rollout, consentendo la stima del valore durante la pianificazione.

Fatti principali

V-VLAPS potenzia la pianificazione guidata da VLA con una testa di valore leggera
La testa di valore è addestrata su rollout VLA offline per prevedere i rendimenti Monte Carlo
Le previsioni guidano la ricerca ad albero Monte Carlo verso rami con valore più alto
Le politiche VLA reattive falliscono sotto cambiamento di distribuzione e compiti a lungo orizzonte
I metodi di pianificazione precedenti mancavano di segnali di valore appresi per correggere azioni di policy scadenti
Le rappresentazioni VLA codificano informazioni sul successo e fallimento dei rollout
Il metodo mira a migliorare l'esecuzione della manipolazione robotica
Articolo disponibile su arXiv con ID 2601.00969

V-VLAPS: La pianificazione guidata dal valore migliora i modelli VLA per la robotica

Fatti principali

Entità

Istituzioni

Fonti