PedestrianQA: Nuovo Benchmark Testa i VLM sulla Previsione dei Pedoni
I ricercatori hanno introdotto PedestrianQA, un dataset video su larga scala che riformula la previsione dell'intenzione e della traiettoria dei pedoni come compiti di domanda-risposta con ragionamenti strutturati. Il dataset consente ai modelli visione-linguaggio di apprendere dalle dinamiche visive, dagli indizi contestuali e dalle interazioni con gli agenti del traffico, generando al contempo spiegazioni concise. Le valutazioni sono state condotte sui dataset PIE, JAAD, TITAN e IDD-PeD.
Fatti principali
- PedestrianQA è un dataset video su larga scala per la previsione dell'intenzione e della traiettoria dei pedoni.
- Formula la previsione come compiti di domanda-risposta con ragionamenti strutturati.
- Il dataset consente ai VLM di apprendere dalle dinamiche visive, dagli indizi contestuali e dalle interazioni con gli agenti del traffico.
- Le valutazioni sono state eseguite sui dataset PIE, JAAD, TITAN e IDD-PeD.
- Il lavoro è pubblicato su arXiv con ID 2605.24562.
- La previsione dell'intenzione e della traiettoria dei pedoni è fondamentale per la sicurezza della guida autonoma.
- I recenti progressi nei grandi modelli visione-linguaggio offrono un nuovo paradigma per questi compiti.
- PedestrianQA esprime sequenze pedonali annotate in linguaggio naturale.
Entità
Istituzioni
- arXiv