FORCEBENCH: Un test di stress per il riciclaggio di citazioni nei sistemi RAG

publication · 2026-05-28

Un recente studio presenta FORCEBENCH, un test di stress contrastivo volto a identificare il riciclaggio di citazioni nei sistemi di Retrieval-Augmented Generation (RAG). Questo fenomeno si verifica quando una fonte pertinente viene travisata per sostenere un'affermazione esagerata, un difetto spesso trascurato dalle metriche di valutazione standard. Il benchmark combina un passaggio citato fisso con un'affermazione calibrata sulle prove e una variante localmente forzata, valutando cinque dimensioni: relazione, modalità, ambito, validità temporale e specificità numerica. Un valutatore correttamente calibrato dovrebbe assegnare un punteggio più alto all'affermazione calibrata sulle prove. I test su un insieme di 198 coppie rivelano che la sovrapposizione di token ed entità viola la monotonicità nel 32,8–36,4% dei casi, e il prompting di supporto generico si rivela inadeguato in quattro giudici modello. L'articolo è disponibile su arXiv con ID 2605.28044.

Fatti principali

FORCEBENCH è un test di stress contrastivo per la calibrazione delle prove nei sistemi RAG.
Il riciclaggio di citazioni presenta una fonte correlata come giustificazione per un'affermazione eccessivamente forte.
Il benchmark utilizza cinque assi operativi: relazione, modalità, ambito, validità temporale e specificità numerica.
Per gli esperimenti principali è stato utilizzato un set di valutazione di 198 coppie.
La sovrapposizione di token ed entità viola la monotonicità nel 32,8–36,4% delle coppie.
Sono stati testati quattro giudici modello con prompting di supporto generico.
L'articolo è pubblicato su arXiv con ID 2605.28044.
I controlli di sanità sulla presenza di citazioni sono deliberatamente non informativi.

FORCEBENCH: Un test di stress per il riciclaggio di citazioni nei sistemi RAG

Fatti principali

Entità

Istituzioni

Fonti