ARTFEED — Contemporary Art Intelligence

Drive-P2D: Nuovo Benchmark Valuta i VLM nella Guida Autonoma

ai-technology · 2026-05-27

Drive-P2D è un benchmark innovativo progettato per valutare i modelli visione-linguaggio (VLM) nel contesto della guida autonoma, descritto in un articolo su arXiv (2601.14702). Presenta un totale di 6.650 domande suddivise in livelli Oggetto, Scena e Decisione. Questo benchmark utilizza un protocollo distinto per ragionamento e risposta: mentre le risposte finali sono valutate oggettivamente, il processo di ragionamento viene esaminato per individuare i tipi di errore all'interno del quadro percezione-decisione. Testa i principali VLM in vari scenari, inclusi quelli ad alto rischio, definendo così i limiti delle capacità di percezione-decisione. Questa ricerca affronta le carenze degli attuali benchmark che valutano percezione e decisione in modo isolato, limitano l'analisi degli errori a formati a sola scelta o introducono bias attraverso output lunghi valutati da LLM.

Fatti principali

  • Drive-P2D è un benchmark progressivo percezione-decisione per VLM nella guida autonoma.
  • Contiene 6.650 domande a livello Oggetto, Scena e Decisione.
  • Il benchmark utilizza un protocollo separato di ragionamento e risposta.
  • Le risposte finali sono valutate oggettivamente; il ragionamento è analizzato per modalità di errore.
  • Valuta i principali VLM in tutti gli scenari e in quelli ad alto rischio.
  • Caratterizza il confine delle capacità percezione-decisione.
  • L'articolo è disponibile su arXiv con ID 2601.14702.
  • Affronta le limitazioni dei benchmark esistenti nella guida autonoma.

Entità

Istituzioni

  • arXiv

Fonti