ViDoRe v3 Benchmark Introdotto per la Valutazione Multimodale RAG in Scenari Complessi

ai-technology · 2026-04-22

È stato introdotto un nuovo benchmark, ViDoRe v3, per valutare i sistemi di Generazione Aumentata dal Recupero (RAG) in contesti reali complessi. Questo strumento di valutazione multimodale esteso va oltre il semplice recupero testuale, affrontando l'interpretazione di dati visivi come tabelle, grafici e immagini, nonché la sintesi di informazioni da vari documenti e il preciso ancoraggio alle fonti. Include 10 dataset provenienti da diversi ambiti professionali, comprendenti circa 26.000 pagine di documenti e 3.099 query convalidate da esseri umani in sei lingue. Con 12.000 ore dedicate all'annotazione umana, offre valutazioni di alta qualità per la pertinenza del recupero, la localizzazione dei bounding box e le risposte verificate. Il documento del benchmark, identificato come 2601.08620v2, è stato pubblicato su arXiv, evidenziando le carenze dei benchmark esistenti che spesso trascurano le complessità del contenuto multimodale e dell'integrazione delle informazioni.

Fatti principali

ViDoRe v3 è un benchmark RAG multimodale completo
Il benchmark affronta sfide che vanno oltre il semplice recupero da documento singolo
Include l'interpretazione di elementi visivi come tabelle, grafici e immagini
Il benchmark copre 10 dataset in diversi domini professionali
Comprende circa 26.000 pagine di documenti abbinate a 3.099 query verificate da esseri umani
Le query sono disponibili in 6 lingue
Sono state investite 12.000 ore di lavoro di annotazione umana
Il benchmark fornisce annotazioni per pertinenza del recupero, localizzazione dei bounding box e risposte di riferimento verificate

ViDoRe v3 Benchmark Introdotto per la Valutazione Multimodale RAG in Scenari Complessi

Fatti principali

Entità

Istituzioni

Fonti