VL-DPO: Ottimizzazione Guidata da Visione-Linguaggio per Guida Autonoma Allineata alle Preferenze
Un nuovo framework chiamato VL-DPO utilizza modelli visione-linguaggio per allineare la previsione del movimento nella guida autonoma con le preferenze umane. L'approccio genera coppie di preferenza a partire dai rollout di un modello preaddestrato tramite un ragionatore VLM zero-shot, quindi ottimizza utilizzando l'Ottimizzazione Diretta delle Preferenze (DPO). I modelli vengono addestrati sul dataset Waymo Open End-to-End Driving (WOD-E2E) e valutati rispetto ad annotazioni di preferenza umana. Il lavoro affronta i limiti dell'apprendimento per imitazione standard nel catturare preferenze di guida sfumate.
Fatti principali
- VL-DPO è un framework guidato da visione-linguaggio per allineare i modelli di previsione del movimento del veicolo ego con le preferenze umane.
- Utilizza un VLM come ragionatore zero-shot per generare automaticamente coppie di preferenza dai rollout di un modello preaddestrato.
- L'ottimizzazione viene eseguita tramite Ottimizzazione Diretta delle Preferenze (DPO).
- I modelli vengono ottimizzati sul dataset Waymo Open End-to-End Driving (WOD-E2E).
- Le prestazioni vengono valutate rispetto ad annotazioni di preferenza umana tenute da parte.
- L'approccio mira a catturare le complesse sfumature delle preferenze di guida umane oltre gli obiettivi di imitazione standard.
- L'articolo è pubblicato su arXiv con ID 2605.20082.
- Il lavoro si basa sui recenti progressi nei modelli visione-linguaggio (VLM) per il ragionamento e la comprensione del senso comune.
Entità
Istituzioni
- arXiv
- Waymo