LVDrive: Rappresentazione Visiva Latente per la Guida Autonoma
Un nuovo framework chiamato LVDrive migliora i modelli Visione-Linguaggio-Azione (VLA) per la guida autonoma introducendo un compito di previsione della scena futura in uno spazio latente di alto livello, evitando la ricostruzione a livello di pixel. L'approccio utilizza un backbone visivo pre-addestrato per la supervisione ausiliaria e modella congiuntamente la previsione della scena futura e del movimento in uno spazio di embedding unificato, elaborato in un unico passaggio in avanti. Questo affronta il problema della supervisione sparsa delle azioni nei VLA esistenti e l'enfasi eccessiva sulla ricostruzione dell'immagine a livello di pixel nella modellazione del mondo. L'articolo è disponibile su arXiv con ID 2605.22089.
Fatti principali
- LVDrive è un framework VLA potenziato da rappresentazione visiva latente per la guida autonoma.
- Introduce un compito di previsione della scena futura nel paradigma VLA.
- Le rappresentazioni future vengono apprese in uno spazio latente di alto livello sotto supervisione ausiliaria da un backbone visivo pre-addestrato.
- Il framework modella congiuntamente la previsione della scena futura e del movimento all'interno di uno spazio di embedding unificato.
- L'elaborazione avviene in un unico passaggio in avanti, allontanandosi dalla generazione autoregressiva inefficiente.
- I VLA esistenti si basano su una supervisione sparsa delle azioni, sottoutilizzando le capacità di comprensione della scena.
- I tentativi precedenti con supervisione visiva densa tramite modellazione del mondo enfatizzano eccessivamente la ricostruzione a livello di pixel.
- L'articolo è pubblicato su arXiv con ID 2605.22089.
Entità
Istituzioni
- arXiv