VL-DPO: Ottimizzazione Guidata da Visione-Linguaggio per Guida Autonoma Allineata alle Preferenze

other · 2026-05-20

Un nuovo framework chiamato VL-DPO utilizza modelli visione-linguaggio per allineare la previsione del movimento nella guida autonoma con le preferenze umane. L'approccio genera coppie di preferenza a partire dai rollout di un modello preaddestrato tramite un ragionatore VLM zero-shot, quindi ottimizza utilizzando l'Ottimizzazione Diretta delle Preferenze (DPO). I modelli vengono addestrati sul dataset Waymo Open End-to-End Driving (WOD-E2E) e valutati rispetto ad annotazioni di preferenza umana. Il lavoro affronta i limiti dell'apprendimento per imitazione standard nel catturare preferenze di guida sfumate.

Fatti principali

VL-DPO è un framework guidato da visione-linguaggio per allineare i modelli di previsione del movimento del veicolo ego con le preferenze umane.
Utilizza un VLM come ragionatore zero-shot per generare automaticamente coppie di preferenza dai rollout di un modello preaddestrato.
L'ottimizzazione viene eseguita tramite Ottimizzazione Diretta delle Preferenze (DPO).
I modelli vengono ottimizzati sul dataset Waymo Open End-to-End Driving (WOD-E2E).
Le prestazioni vengono valutate rispetto ad annotazioni di preferenza umana tenute da parte.
L'approccio mira a catturare le complesse sfumature delle preferenze di guida umane oltre gli obiettivi di imitazione standard.
L'articolo è pubblicato su arXiv con ID 2605.20082.
Il lavoro si basa sui recenti progressi nei modelli visione-linguaggio (VLM) per il ragionamento e la comprensione del senso comune.

VL-DPO: Ottimizzazione Guidata da Visione-Linguaggio per Guida Autonoma Allineata alle Preferenze

Fatti principali

Entità

Istituzioni

Fonti