PedestrianQA: Nuovo Benchmark Testa i VLM sulla Previsione dei Pedoni

publication · 2026-05-26

I ricercatori hanno introdotto PedestrianQA, un dataset video su larga scala che riformula la previsione dell'intenzione e della traiettoria dei pedoni come compiti di domanda-risposta con ragionamenti strutturati. Il dataset consente ai modelli visione-linguaggio di apprendere dalle dinamiche visive, dagli indizi contestuali e dalle interazioni con gli agenti del traffico, generando al contempo spiegazioni concise. Le valutazioni sono state condotte sui dataset PIE, JAAD, TITAN e IDD-PeD.

Fatti principali

PedestrianQA è un dataset video su larga scala per la previsione dell'intenzione e della traiettoria dei pedoni.
Formula la previsione come compiti di domanda-risposta con ragionamenti strutturati.
Il dataset consente ai VLM di apprendere dalle dinamiche visive, dagli indizi contestuali e dalle interazioni con gli agenti del traffico.
Le valutazioni sono state eseguite sui dataset PIE, JAAD, TITAN e IDD-PeD.
Il lavoro è pubblicato su arXiv con ID 2605.24562.
La previsione dell'intenzione e della traiettoria dei pedoni è fondamentale per la sicurezza della guida autonoma.
I recenti progressi nei grandi modelli visione-linguaggio offrono un nuovo paradigma per questi compiti.
PedestrianQA esprime sequenze pedonali annotate in linguaggio naturale.

PedestrianQA: Nuovo Benchmark Testa i VLM sulla Previsione dei Pedoni

Fatti principali

Entità

Istituzioni

Fonti