Drive-P2D: Nuovo Benchmark Valuta i VLM nella Guida Autonoma
Drive-P2D è un benchmark innovativo progettato per valutare i modelli visione-linguaggio (VLM) nel contesto della guida autonoma, descritto in un articolo su arXiv (2601.14702). Presenta un totale di 6.650 domande suddivise in livelli Oggetto, Scena e Decisione. Questo benchmark utilizza un protocollo distinto per ragionamento e risposta: mentre le risposte finali sono valutate oggettivamente, il processo di ragionamento viene esaminato per individuare i tipi di errore all'interno del quadro percezione-decisione. Testa i principali VLM in vari scenari, inclusi quelli ad alto rischio, definendo così i limiti delle capacità di percezione-decisione. Questa ricerca affronta le carenze degli attuali benchmark che valutano percezione e decisione in modo isolato, limitano l'analisi degli errori a formati a sola scelta o introducono bias attraverso output lunghi valutati da LLM.
Fatti principali
- Drive-P2D è un benchmark progressivo percezione-decisione per VLM nella guida autonoma.
- Contiene 6.650 domande a livello Oggetto, Scena e Decisione.
- Il benchmark utilizza un protocollo separato di ragionamento e risposta.
- Le risposte finali sono valutate oggettivamente; il ragionamento è analizzato per modalità di errore.
- Valuta i principali VLM in tutti gli scenari e in quelli ad alto rischio.
- Caratterizza il confine delle capacità percezione-decisione.
- L'articolo è disponibile su arXiv con ID 2601.14702.
- Affronta le limitazioni dei benchmark esistenti nella guida autonoma.
Entità
Istituzioni
- arXiv