Il dataset StratRAG stabilisce benchmark per il recupero multi-hop nei sistemi RAG
StratRAG è un dataset open-source per la valutazione dei sistemi di recupero nel contesto della Retrieval-Augmented Generation (RAG), focalizzato su compiti di ragionamento multi-hop in mezzo a pool di documenti realistici e rumorosi. Si basa sul formato distrattore di HotpotQA, con 2.200 istanze suddivise in tre categorie di domande: ponte, confronto e sì-no. Ogni istanza è associata a un insieme di 15 documenti candidati, che include 2 documenti gold standard e 13 distrattori tematicamente rilevanti. La valutazione ha coinvolto tre metodi di recupero: BM25, recupero denso (all-MiniLM-L6-v2) e fusione ibrida, utilizzando metriche come Recall@k, MRR e NDCG@5 sul dataset di validazione. L'approccio ibrido ha superato gli altri (Recall@2 = 0,70, MRR = 0,93), sebbene le domande ponte si siano rivelate notevolmente più impegnative (Recall@2 = 0,67), indicando la necessità di ulteriori esplorazioni di strategie di recupero basate su apprendimento per rinforzo. Il dataset è accessibile pubblicamente all'indirizzo https://huggingface.co/datasets/Aryanp088/StratR.
Fatti principali
- StratRAG è un dataset di valutazione del recupero open-source per sistemi RAG.
- Deriva dall'impostazione distrattore di HotpotQA.
- Il dataset contiene 2.200 esempi suddivisi in tipi di domande: ponte, confronto e sì-no.
- Ogni esempio ha un pool di 15 documenti candidati: 2 gold e 13 distrattori.
- Sono state confrontate tre strategie di recupero: BM25, recupero denso (all-MiniLM-L6-v2) e fusione ibrida.
- Metriche utilizzate: Recall@k, MRR e NDCG@5 sul set di validazione.
- Il recupero ibrido ha ottenuto le migliori prestazioni complessive (Recall@2 = 0,70, MRR = 0,93).
- Le domande ponte sono state le più difficili (Recall@2 = 0,67).
- Il lavoro futuro include politiche di recupero basate su apprendimento per rinforzo.
- StratRAG è disponibile su Hugging Face.
Entità
—