Il risolutore di cinematica inversa migliora la previsione della traiettoria nei modelli VLA per la guida

ai-technology · 2026-05-22

Uno studio recente pubblicato su arXiv (2605.21061) scopre un problema critico negli attuali modelli di guida Vision-Language-Action (VLA): essi trascurano i token visivi nelle previsioni di traiettoria. I ricercatori attribuiscono questo problema a una formulazione del compito mal strutturata. Dimostrano che il recupero delle traiettorie attraverso la cinematica inversa richiede sia gli stati visivi presenti che futuri come condizioni al contorno. Gli attuali VLA forniscono solo lo stato presente, portando a una dipendenza dallo stato dell'ego e dalle istruzioni testuali. Per affrontare questo problema, gli autori propongono di riprogettare il Driving VLA come un risolutore di cinematica inversa. Ciò comporta un obiettivo di previsione dello stato visivo futuro che costringe l'LLM a prevedere la scena visiva imminente, migliorando la supervisione visiva e minimizzando le scorciatoie. Inoltre, una distinta Rete di Cinematica Inversa—basata su diffusione condizionale con attenzione incrociata—utilizza solo gli stati visivi attuali e futuri, riducendo la dipendenza dallo stato dell'ego e dai comandi testuali. Questa strategia mira a migliorare la robustezza e il radicamento visivo delle previsioni di traiettoria.

Fatti principali

Il paper arXiv 2605.21061 identifica un difetto nei Driving VLA: ignorano i token visivi durante la previsione della traiettoria.
Il problema è ricondotto a una formulazione del compito strutturalmente mal posta, non a un addestramento insufficiente.
Il recupero della traiettoria tramite cinematica inversa richiede sia gli stati visivi attuali che futuri come condizioni al contorno.
Gli attuali VLA forniscono solo lo stato visivo attuale, incoraggiando scorciatoie attraverso lo stato dell'ego e i comandi testuali.
La soluzione proposta include un obiettivo di previsione del prossimo stato visivo per una supervisione visiva densa.
Una Rete di Cinematica Inversa separata utilizza diffusione condizionale basata su attenzione incrociata, prendendo solo gli stati visivi attuali e futuri.
Il design sopprime la dipendenza dallo stato dell'ego e dai comandi testuali.
L'approccio mira a migliorare la robustezza e il radicamento visivo della previsione della traiettoria.

Il risolutore di cinematica inversa migliora la previsione della traiettoria nei modelli VLA per la guida

Fatti principali

Entità

Istituzioni

Fonti