Dataset Faithfulness-QA Addestra Modelli RAG a Preferire il Contesto alla Memoria

ai-technology · 2026-04-30

I ricercatori hanno rilasciato Faithfulness-QA, un dataset su larga scala di 99.094 campioni progettato per addestrare modelli di Retrieval-Augmented Generation (RAG) a dare priorità al contesto recuperato rispetto alla memoria parametrica. Il dataset affronta un difetto fondamentale nei sistemi RAG, che spesso generano risposte basate sulla conoscenza interna anziché sul contesto fornito. È stato costruito mediante sostituzione controfattuale di entità: dai benchmark SQuAD e TriviaQA, le entità nominate portatrici di risposta sono state sostituite con alternative coerenti per tipo provenienti da un archivio curato di 76.953 entità, creando conflitti di conoscenza controllati. Un rigoroso filtraggio di qualità garantisce un tasso di superamento del 100% nei controlli automatizzati. Il dataset completo è disponibile su arXiv.

Fatti principali

Faithfulness-QA è un dataset di 99.094 campioni per addestrare modelli RAG.
Utilizza la sostituzione controfattuale di entità per creare conflitti di conoscenza.
Derivato dai benchmark SQuAD e TriviaQA.
L'archivio di entità contiene 76.953 alternative coerenti per tipo.
Il filtraggio di qualità garantisce un tasso di superamento del 100% nei controlli automatizzati.
Mira a ridurre le risposte infedeli provenienti dalla memoria parametrica.
Rilasciato su arXiv con identificatore 2604.25313.
Affronta un ostacolo fondamentale nel potenziamento tramite recupero.

Dataset Faithfulness-QA Addestra Modelli RAG a Preferire il Contesto alla Memoria

Fatti principali

Entità

Istituzioni

Fonti