MuDABench: Nuovo Benchmark per il QA Analitico su Più Documenti
Un nuovo benchmark chiamato MuDABench è stato sviluppato da ricercatori per il question answering (QA) analitico su più documenti, in estese raccolte di documenti semi-strutturati. A differenza degli attuali benchmark QA multi-documento che si basano su un numero limitato di documenti con un minimo ragionamento incrociato, MuDABench richiede un'analisi e una sintesi complete su più documenti. Comprende oltre 80.000 pagine e include 332 istanze di QA analitico, create tramite supervisione a distanza utilizzando metadati a livello di documento e database finanziari annotati. Inoltre, il benchmark introduce un protocollo di valutazione che misura l'accuratezza delle risposte finali e incorpora la copertura dei fatti intermedi come segnale diagnostico ausiliario. Gli esperimenti indicano che i sistemi RAG standard incontrano difficoltà con questo compito. Il documento è disponibile su arXiv.
Fatti principali
- MuDABench è un benchmark per il QA analitico su più documenti
- Copre oltre 80.000 pagine e 332 istanze di QA
- Costruito tramite supervisione a distanza utilizzando metadati e database finanziari
- Richiede un'ampia analisi e aggregazione inter-documento
- La valutazione misura l'accuratezza delle risposte e la copertura dei fatti intermedi
- I sistemi RAG standard ottengono scarsi risultati su questo benchmark
- Documento pubblicato su arXiv con ID 2604.22239
Entità
Istituzioni
- arXiv