WikiVQABench: Benchmark VQA basato su conoscenza da Wikipedia e Wikidata
WikiVQABench è stato lanciato da ricercatori come benchmark curato da umani per il Visual Question Answering (VQA) basato su conoscenza. A differenza dei benchmark VQA convenzionali che si basano esclusivamente sul contenuto visivo per compiti percettivi, WikiVQABench richiede conoscenze esterne che non possono essere ricavate dalle sole immagini. Questo benchmark è creato integrando sistematicamente immagini da Wikipedia, le relative didascalie degli articoli e dati strutturati da Wikidata. Una pipeline che utilizza modelli linguistici di grandi dimensioni (LLM) produce insiemi candidati di domande a scelta multipla, che vengono successivamente valutati e perfezionati da annotatori umani per verificare l'accuratezza fattuale, l'allineamento visivo-testuale e la necessità di conoscenze esterne oltre agli indizi visivi. Presenta una significativa selezione di immagini di Wikipedia abbinate a domande a scelta multipla curate, finalizzate a valutare il ragionamento basato sulla conoscenza.
Fatti principali
- WikiVQABench è un benchmark VQA basato su conoscenza.
- Combina immagini di Wikipedia, didascalie e conoscenza di Wikidata.
- Gli LLM generano insiemi candidati di domande e risposte.
- Annotatori umani curano per correttezza fattuale e coerenza.
- Le domande richiedono conoscenze esterne oltre all'evidenza visiva.
- Il benchmark include domande a scelta multipla.
- Affronta i limiti dei benchmark VQA basati sulla percezione.
- Il lavoro è pubblicato su arXiv con ID 2605.21479.
Entità
Istituzioni
- arXiv
- Wikipedia
- Wikidata