ARTFEED — Contemporary Art Intelligence

MCJudgeBench: Benchmark per la valutazione dei giudici LLM a livello di vincolo

ai-technology · 2026-05-07

Un nuovo benchmark, MCJudgeBench, valuta i giudici LLM a livello di vincolo nel seguire istruzioni con vincoli multipli. Ogni istanza include un'istruzione, una risposta candidata, un elenco esplicito di vincoli, etichette gold per vincolo (sì/parziale/no) e perturbazioni controllate. Il protocollo verifica la stabilità del giudice con varianti del prompt di valutazione. I giudici LLM proprietari e open-source vengono valutati utilizzando metriche di correttezza e incoerenza, distinguendo l'incoerenza intrinseca da quella procedurale. I risultati mostrano che l'affidabilità del giudice ha molteplici dimensioni; una forte performance complessiva non garantisce una valutazione altrettanto robusta a livello di vincolo.

Fatti principali

  • MCJudgeBench è un benchmark per la valutazione dei giudici a livello di vincolo.
  • Si concentra sul seguire istruzioni con vincoli multipli.
  • Ogni istanza include un'istruzione, una risposta candidata, un elenco di vincoli, etichette gold per vincolo e perturbazioni.
  • Varianti del prompt di valutazione testano la stabilità del giudice.
  • Vengono valutati sia giudici LLM proprietari che open-source.
  • Le metriche includono correttezza e incoerenza.
  • L'incoerenza intrinseca sotto decodifica stocastica è distinta dall'incoerenza procedurale sotto perturbazioni di prompt/risposta.
  • Una forte performance complessiva non garantisce una valutazione altrettanto robusta a livello di vincolo.

Entità

Istituzioni

  • arXiv

Fonti