Nuovo standard LLM-as-a-Judge per la valutazione del RAG multi-hop
Un team di ricercatori ha introdotto uno standard di misurazione di base volto a valutare i sistemi di retrieval-augmented generation (RAG) tramite LLM-as-a-judge, affrontando le sfide nella valutazione del RAG multi-hop. Questo standard stabilisce parametri come un pool fisso di 100 candidati, un budget di prove, un limite di risposte, un generatore e un prompt. Richiede ipotesi preregistrate, inferenza cluster-aware, verifica precisa del sign-flip dei cluster e replica da parte di un secondo giudice. Hanno impiegato il Genetic Algorithm Decoder for Multi-hop Evidence Composition (GADMEC) per testare rigorosamente 40 compiti. I loro risultati indicano che i benchmark basati sul clustering possono esagerare i progressi.
Fatti principali
- Propone uno standard di misurazione minimo per confronti LLM-as-a-judge nel RAG
- Lo standard fissa pool di 100 candidati, budget di prove, limite di risposte, generatore e prompt
- Richiede ipotesi preregistrate, inferenza cluster-aware, verifica esatta del sign-flip dei cluster e replica da parte di un secondo giudice
- Testato con Genetic Algorithm Decoder for Multi-hop Evidence Composition (GADMEC) su 40 compiti
- I benchmark clusterizzati possono sopravvalutare i progressi
- Pubblicato su arXiv con ID 2605.27789
- Affronta problemi di misurazione nel RAG multi-hop
- Si concentra su qualità del recupero, lunghezza delle risposte, sovrapposizione lessicale e dati clusterizzati
Entità
Istituzioni
- arXiv