ARTFEED — Contemporary Art Intelligence

LVDrive: Rappresentazione Visiva Latente per la Guida Autonoma

ai-technology · 2026-05-23

Un nuovo framework chiamato LVDrive migliora i modelli Visione-Linguaggio-Azione (VLA) per la guida autonoma introducendo un compito di previsione della scena futura in uno spazio latente di alto livello, evitando la ricostruzione a livello di pixel. L'approccio utilizza un backbone visivo pre-addestrato per la supervisione ausiliaria e modella congiuntamente la previsione della scena futura e del movimento in uno spazio di embedding unificato, elaborato in un unico passaggio in avanti. Questo affronta il problema della supervisione sparsa delle azioni nei VLA esistenti e l'enfasi eccessiva sulla ricostruzione dell'immagine a livello di pixel nella modellazione del mondo. L'articolo è disponibile su arXiv con ID 2605.22089.

Fatti principali

  • LVDrive è un framework VLA potenziato da rappresentazione visiva latente per la guida autonoma.
  • Introduce un compito di previsione della scena futura nel paradigma VLA.
  • Le rappresentazioni future vengono apprese in uno spazio latente di alto livello sotto supervisione ausiliaria da un backbone visivo pre-addestrato.
  • Il framework modella congiuntamente la previsione della scena futura e del movimento all'interno di uno spazio di embedding unificato.
  • L'elaborazione avviene in un unico passaggio in avanti, allontanandosi dalla generazione autoregressiva inefficiente.
  • I VLA esistenti si basano su una supervisione sparsa delle azioni, sottoutilizzando le capacità di comprensione della scena.
  • I tentativi precedenti con supervisione visiva densa tramite modellazione del mondo enfatizzano eccessivamente la ricostruzione a livello di pixel.
  • L'articolo è pubblicato su arXiv con ID 2605.22089.

Entità

Istituzioni

  • arXiv

Fonti