LVDrive: Rappresentazione Visiva Latente per la Guida Autonoma

ai-technology · 2026-05-23

Un nuovo framework chiamato LVDrive migliora i modelli Visione-Linguaggio-Azione (VLA) per la guida autonoma introducendo un compito di previsione della scena futura in uno spazio latente di alto livello, evitando la ricostruzione a livello di pixel. L'approccio utilizza un backbone visivo pre-addestrato per la supervisione ausiliaria e modella congiuntamente la previsione della scena futura e del movimento in uno spazio di embedding unificato, elaborato in un unico passaggio in avanti. Questo affronta il problema della supervisione sparsa delle azioni nei VLA esistenti e l'enfasi eccessiva sulla ricostruzione dell'immagine a livello di pixel nella modellazione del mondo. L'articolo è disponibile su arXiv con ID 2605.22089.

Fatti principali

LVDrive è un framework VLA potenziato da rappresentazione visiva latente per la guida autonoma.
Introduce un compito di previsione della scena futura nel paradigma VLA.
Le rappresentazioni future vengono apprese in uno spazio latente di alto livello sotto supervisione ausiliaria da un backbone visivo pre-addestrato.
Il framework modella congiuntamente la previsione della scena futura e del movimento all'interno di uno spazio di embedding unificato.
L'elaborazione avviene in un unico passaggio in avanti, allontanandosi dalla generazione autoregressiva inefficiente.
I VLA esistenti si basano su una supervisione sparsa delle azioni, sottoutilizzando le capacità di comprensione della scena.
I tentativi precedenti con supervisione visiva densa tramite modellazione del mondo enfatizzano eccessivamente la ricostruzione a livello di pixel.
L'articolo è pubblicato su arXiv con ID 2605.22089.

LVDrive: Rappresentazione Visiva Latente per la Guida Autonoma

Fatti principali

Entità

Istituzioni

Fonti