ARTFEED — Contemporary Art Intelligence

Nuovo standard LLM-as-a-Judge per la valutazione del RAG multi-hop

ai-technology · 2026-05-28

Un team di ricercatori ha introdotto uno standard di misurazione di base volto a valutare i sistemi di retrieval-augmented generation (RAG) tramite LLM-as-a-judge, affrontando le sfide nella valutazione del RAG multi-hop. Questo standard stabilisce parametri come un pool fisso di 100 candidati, un budget di prove, un limite di risposte, un generatore e un prompt. Richiede ipotesi preregistrate, inferenza cluster-aware, verifica precisa del sign-flip dei cluster e replica da parte di un secondo giudice. Hanno impiegato il Genetic Algorithm Decoder for Multi-hop Evidence Composition (GADMEC) per testare rigorosamente 40 compiti. I loro risultati indicano che i benchmark basati sul clustering possono esagerare i progressi.

Fatti principali

  • Propone uno standard di misurazione minimo per confronti LLM-as-a-judge nel RAG
  • Lo standard fissa pool di 100 candidati, budget di prove, limite di risposte, generatore e prompt
  • Richiede ipotesi preregistrate, inferenza cluster-aware, verifica esatta del sign-flip dei cluster e replica da parte di un secondo giudice
  • Testato con Genetic Algorithm Decoder for Multi-hop Evidence Composition (GADMEC) su 40 compiti
  • I benchmark clusterizzati possono sopravvalutare i progressi
  • Pubblicato su arXiv con ID 2605.27789
  • Affronta problemi di misurazione nel RAG multi-hop
  • Si concentra su qualità del recupero, lunghezza delle risposte, sovrapposizione lessicale e dati clusterizzati

Entità

Istituzioni

  • arXiv

Fonti