ARTFEED — Contemporary Art Intelligence

PedestrianQA: Nuovo Benchmark Testa i VLM sulla Previsione dei Pedoni

publication · 2026-05-26

I ricercatori hanno introdotto PedestrianQA, un dataset video su larga scala che riformula la previsione dell'intenzione e della traiettoria dei pedoni come compiti di domanda-risposta con ragionamenti strutturati. Il dataset consente ai modelli visione-linguaggio di apprendere dalle dinamiche visive, dagli indizi contestuali e dalle interazioni con gli agenti del traffico, generando al contempo spiegazioni concise. Le valutazioni sono state condotte sui dataset PIE, JAAD, TITAN e IDD-PeD.

Fatti principali

  • PedestrianQA è un dataset video su larga scala per la previsione dell'intenzione e della traiettoria dei pedoni.
  • Formula la previsione come compiti di domanda-risposta con ragionamenti strutturati.
  • Il dataset consente ai VLM di apprendere dalle dinamiche visive, dagli indizi contestuali e dalle interazioni con gli agenti del traffico.
  • Le valutazioni sono state eseguite sui dataset PIE, JAAD, TITAN e IDD-PeD.
  • Il lavoro è pubblicato su arXiv con ID 2605.24562.
  • La previsione dell'intenzione e della traiettoria dei pedoni è fondamentale per la sicurezza della guida autonoma.
  • I recenti progressi nei grandi modelli visione-linguaggio offrono un nuovo paradigma per questi compiti.
  • PedestrianQA esprime sequenze pedonali annotate in linguaggio naturale.

Entità

Istituzioni

  • arXiv

Fonti