WikiVQABench: Benchmark VQA basato su conoscenza da Wikipedia e Wikidata

ai-technology · 2026-05-22

WikiVQABench è stato lanciato da ricercatori come benchmark curato da umani per il Visual Question Answering (VQA) basato su conoscenza. A differenza dei benchmark VQA convenzionali che si basano esclusivamente sul contenuto visivo per compiti percettivi, WikiVQABench richiede conoscenze esterne che non possono essere ricavate dalle sole immagini. Questo benchmark è creato integrando sistematicamente immagini da Wikipedia, le relative didascalie degli articoli e dati strutturati da Wikidata. Una pipeline che utilizza modelli linguistici di grandi dimensioni (LLM) produce insiemi candidati di domande a scelta multipla, che vengono successivamente valutati e perfezionati da annotatori umani per verificare l'accuratezza fattuale, l'allineamento visivo-testuale e la necessità di conoscenze esterne oltre agli indizi visivi. Presenta una significativa selezione di immagini di Wikipedia abbinate a domande a scelta multipla curate, finalizzate a valutare il ragionamento basato sulla conoscenza.

Fatti principali

WikiVQABench è un benchmark VQA basato su conoscenza.
Combina immagini di Wikipedia, didascalie e conoscenza di Wikidata.
Gli LLM generano insiemi candidati di domande e risposte.
Annotatori umani curano per correttezza fattuale e coerenza.
Le domande richiedono conoscenze esterne oltre all'evidenza visiva.
Il benchmark include domande a scelta multipla.
Affronta i limiti dei benchmark VQA basati sulla percezione.
Il lavoro è pubblicato su arXiv con ID 2605.21479.

WikiVQABench: Benchmark VQA basato su conoscenza da Wikipedia e Wikidata

Fatti principali

Entità

Istituzioni

Fonti