Nuovo standard LLM-as-a-Judge per la valutazione del RAG multi-hop

ai-technology · 2026-05-28

Un team di ricercatori ha introdotto uno standard di misurazione di base volto a valutare i sistemi di retrieval-augmented generation (RAG) tramite LLM-as-a-judge, affrontando le sfide nella valutazione del RAG multi-hop. Questo standard stabilisce parametri come un pool fisso di 100 candidati, un budget di prove, un limite di risposte, un generatore e un prompt. Richiede ipotesi preregistrate, inferenza cluster-aware, verifica precisa del sign-flip dei cluster e replica da parte di un secondo giudice. Hanno impiegato il Genetic Algorithm Decoder for Multi-hop Evidence Composition (GADMEC) per testare rigorosamente 40 compiti. I loro risultati indicano che i benchmark basati sul clustering possono esagerare i progressi.

Fatti principali

Propone uno standard di misurazione minimo per confronti LLM-as-a-judge nel RAG
Lo standard fissa pool di 100 candidati, budget di prove, limite di risposte, generatore e prompt
Richiede ipotesi preregistrate, inferenza cluster-aware, verifica esatta del sign-flip dei cluster e replica da parte di un secondo giudice
Testato con Genetic Algorithm Decoder for Multi-hop Evidence Composition (GADMEC) su 40 compiti
I benchmark clusterizzati possono sopravvalutare i progressi
Pubblicato su arXiv con ID 2605.27789
Affronta problemi di misurazione nel RAG multi-hop
Si concentra su qualità del recupero, lunghezza delle risposte, sovrapposizione lessicale e dati clusterizzati

Nuovo standard LLM-as-a-Judge per la valutazione del RAG multi-hop

Fatti principali

Entità

Istituzioni

Fonti