Il dataset StratRAG stabilisce benchmark per il recupero multi-hop nei sistemi RAG

ai-technology · 2026-04-29

StratRAG è un dataset open-source per la valutazione dei sistemi di recupero nel contesto della Retrieval-Augmented Generation (RAG), focalizzato su compiti di ragionamento multi-hop in mezzo a pool di documenti realistici e rumorosi. Si basa sul formato distrattore di HotpotQA, con 2.200 istanze suddivise in tre categorie di domande: ponte, confronto e sì-no. Ogni istanza è associata a un insieme di 15 documenti candidati, che include 2 documenti gold standard e 13 distrattori tematicamente rilevanti. La valutazione ha coinvolto tre metodi di recupero: BM25, recupero denso (all-MiniLM-L6-v2) e fusione ibrida, utilizzando metriche come Recall@k, MRR e NDCG@5 sul dataset di validazione. L'approccio ibrido ha superato gli altri (Recall@2 = 0,70, MRR = 0,93), sebbene le domande ponte si siano rivelate notevolmente più impegnative (Recall@2 = 0,67), indicando la necessità di ulteriori esplorazioni di strategie di recupero basate su apprendimento per rinforzo. Il dataset è accessibile pubblicamente all'indirizzo https://huggingface.co/datasets/Aryanp088/StratR.

Fatti principali

StratRAG è un dataset di valutazione del recupero open-source per sistemi RAG.
Deriva dall'impostazione distrattore di HotpotQA.
Il dataset contiene 2.200 esempi suddivisi in tipi di domande: ponte, confronto e sì-no.
Ogni esempio ha un pool di 15 documenti candidati: 2 gold e 13 distrattori.
Sono state confrontate tre strategie di recupero: BM25, recupero denso (all-MiniLM-L6-v2) e fusione ibrida.
Metriche utilizzate: Recall@k, MRR e NDCG@5 sul set di validazione.
Il recupero ibrido ha ottenuto le migliori prestazioni complessive (Recall@2 = 0,70, MRR = 0,93).
Le domande ponte sono state le più difficili (Recall@2 = 0,67).
Il lavoro futuro include politiche di recupero basate su apprendimento per rinforzo.
StratRAG è disponibile su Hugging Face.

Entità

—

Fonti

arXiv cs.AI — 2026-04-28