EvoScene-VLA: Credenze di Scena Aggiornate dall'Azione per il Controllo Robotico

ai-technology · 2026-05-23

EvoScene-VLA ha svelato uno stato di scena dinamico e continuamente aggiornato, progettato per il controllo robotico a blocchi. Le politiche VLA tradizionali prevedono azioni multi-step basandosi esclusivamente sugli input visivi correnti; tuttavia, le azioni eseguite dal robot possono causare contatti, occlusioni e movimenti di oggetti, modificando la geometria su cui si basano le decisioni successive prima del successivo aggiornamento visivo. Mentre i VLA spaziali migliorano la geometria del fotogramma corrente e i VLA temporali compilano informazioni da fotogrammi precedenti, nessuno dei due mantiene efficacemente uno stato di scena aggiornato dall'azione tra i blocchi. Il prefisso di scena ricorrente in EvoScene-VLA preserva uno stato di scena consapevole della geometria durante le chiamate di controllo. Ad ogni invocazione del VLM, il modello fonde i dati di scena dell'osservazione più recente con lo stato aggiornato dall'azione precedente del blocco precedente. Il decodificatore di azione genera quindi sia il blocco di azione successivo che un aggiornamento di scena conciso, che funge da nuovo prior per il VLM da adattare alla nuova osservazione. Questa metodologia favorisce l'evoluzione delle credenze di scena all'interno del decodificatore di azione, migliorando così i compiti di manipolazione a lungo orizzonte.

Fatti principali

1. EvoScene-VLA introduce uno stato di scena persistente aggiornato dall'azione tra i blocchi di controllo.
2. Le politiche VLA standard si basano solo sulle osservazioni visive correnti per ogni blocco di azione multi-step.
3. Le azioni del robot causano contatti, occlusioni e movimenti di oggetti, modificando la geometria della scena.
4. I VLA spaziali migliorano la geometria del fotogramma corrente; i VLA temporali aggregano fotogrammi passati.
5. Né i VLA spaziali né quelli temporali mantengono un prior di scena aggiornato dall'azione tra i blocchi.
6. EvoScene-VLA utilizza un prefisso di scena ricorrente per trasportare uno stato di scena consapevole della geometria.
7. Ad ogni chiamata del VLM, il modello combina l'osservazione corrente con il prior aggiornato dall'azione del blocco precedente.
8. Il decodificatore di azione produce sia il blocco di azione successivo che un aggiornamento di scena compatto.

EvoScene-VLA: Credenze di Scena Aggiornate dall'Azione per il Controllo Robotico

Fatti principali

Entità

Istituzioni

Fonti