ARTFEED — Contemporary Art Intelligence

ViDoRe v3 Benchmark Introdotto per la Valutazione Multimodale RAG in Scenari Complessi

ai-technology · 2026-04-22

È stato introdotto un nuovo benchmark, ViDoRe v3, per valutare i sistemi di Generazione Aumentata dal Recupero (RAG) in contesti reali complessi. Questo strumento di valutazione multimodale esteso va oltre il semplice recupero testuale, affrontando l'interpretazione di dati visivi come tabelle, grafici e immagini, nonché la sintesi di informazioni da vari documenti e il preciso ancoraggio alle fonti. Include 10 dataset provenienti da diversi ambiti professionali, comprendenti circa 26.000 pagine di documenti e 3.099 query convalidate da esseri umani in sei lingue. Con 12.000 ore dedicate all'annotazione umana, offre valutazioni di alta qualità per la pertinenza del recupero, la localizzazione dei bounding box e le risposte verificate. Il documento del benchmark, identificato come 2601.08620v2, è stato pubblicato su arXiv, evidenziando le carenze dei benchmark esistenti che spesso trascurano le complessità del contenuto multimodale e dell'integrazione delle informazioni.

Fatti principali

  • ViDoRe v3 è un benchmark RAG multimodale completo
  • Il benchmark affronta sfide che vanno oltre il semplice recupero da documento singolo
  • Include l'interpretazione di elementi visivi come tabelle, grafici e immagini
  • Il benchmark copre 10 dataset in diversi domini professionali
  • Comprende circa 26.000 pagine di documenti abbinate a 3.099 query verificate da esseri umani
  • Le query sono disponibili in 6 lingue
  • Sono state investite 12.000 ore di lavoro di annotazione umana
  • Il benchmark fornisce annotazioni per pertinenza del recupero, localizzazione dei bounding box e risposte di riferimento verificate

Entità

Istituzioni

  • arXiv

Fonti