ARTFEED — Contemporary Art Intelligence

WikiVQABench: Benchmark VQA basato su conoscenza da Wikipedia e Wikidata

ai-technology · 2026-05-22

WikiVQABench è stato lanciato da ricercatori come benchmark curato da umani per il Visual Question Answering (VQA) basato su conoscenza. A differenza dei benchmark VQA convenzionali che si basano esclusivamente sul contenuto visivo per compiti percettivi, WikiVQABench richiede conoscenze esterne che non possono essere ricavate dalle sole immagini. Questo benchmark è creato integrando sistematicamente immagini da Wikipedia, le relative didascalie degli articoli e dati strutturati da Wikidata. Una pipeline che utilizza modelli linguistici di grandi dimensioni (LLM) produce insiemi candidati di domande a scelta multipla, che vengono successivamente valutati e perfezionati da annotatori umani per verificare l'accuratezza fattuale, l'allineamento visivo-testuale e la necessità di conoscenze esterne oltre agli indizi visivi. Presenta una significativa selezione di immagini di Wikipedia abbinate a domande a scelta multipla curate, finalizzate a valutare il ragionamento basato sulla conoscenza.

Fatti principali

  • WikiVQABench è un benchmark VQA basato su conoscenza.
  • Combina immagini di Wikipedia, didascalie e conoscenza di Wikidata.
  • Gli LLM generano insiemi candidati di domande e risposte.
  • Annotatori umani curano per correttezza fattuale e coerenza.
  • Le domande richiedono conoscenze esterne oltre all'evidenza visiva.
  • Il benchmark include domande a scelta multipla.
  • Affronta i limiti dei benchmark VQA basati sulla percezione.
  • Il lavoro è pubblicato su arXiv con ID 2605.21479.

Entità

Istituzioni

  • arXiv
  • Wikipedia
  • Wikidata

Fonti