MuDABench: Nuovo Benchmark per il QA Analitico su Più Documenti

other · 2026-04-27

Un nuovo benchmark chiamato MuDABench è stato sviluppato da ricercatori per il question answering (QA) analitico su più documenti, in estese raccolte di documenti semi-strutturati. A differenza degli attuali benchmark QA multi-documento che si basano su un numero limitato di documenti con un minimo ragionamento incrociato, MuDABench richiede un'analisi e una sintesi complete su più documenti. Comprende oltre 80.000 pagine e include 332 istanze di QA analitico, create tramite supervisione a distanza utilizzando metadati a livello di documento e database finanziari annotati. Inoltre, il benchmark introduce un protocollo di valutazione che misura l'accuratezza delle risposte finali e incorpora la copertura dei fatti intermedi come segnale diagnostico ausiliario. Gli esperimenti indicano che i sistemi RAG standard incontrano difficoltà con questo compito. Il documento è disponibile su arXiv.

Fatti principali

MuDABench è un benchmark per il QA analitico su più documenti
Copre oltre 80.000 pagine e 332 istanze di QA
Costruito tramite supervisione a distanza utilizzando metadati e database finanziari
Richiede un'ampia analisi e aggregazione inter-documento
La valutazione misura l'accuratezza delle risposte e la copertura dei fatti intermedi
I sistemi RAG standard ottengono scarsi risultati su questo benchmark
Documento pubblicato su arXiv con ID 2604.22239

MuDABench: Nuovo Benchmark per il QA Analitico su Più Documenti

Fatti principali

Entità

Istituzioni

Fonti