MCJudgeBench: Benchmark per la valutazione dei giudici LLM a livello di vincolo

ai-technology · 2026-05-07

Un nuovo benchmark, MCJudgeBench, valuta i giudici LLM a livello di vincolo nel seguire istruzioni con vincoli multipli. Ogni istanza include un'istruzione, una risposta candidata, un elenco esplicito di vincoli, etichette gold per vincolo (sì/parziale/no) e perturbazioni controllate. Il protocollo verifica la stabilità del giudice con varianti del prompt di valutazione. I giudici LLM proprietari e open-source vengono valutati utilizzando metriche di correttezza e incoerenza, distinguendo l'incoerenza intrinseca da quella procedurale. I risultati mostrano che l'affidabilità del giudice ha molteplici dimensioni; una forte performance complessiva non garantisce una valutazione altrettanto robusta a livello di vincolo.

Fatti principali

MCJudgeBench è un benchmark per la valutazione dei giudici a livello di vincolo.
Si concentra sul seguire istruzioni con vincoli multipli.
Ogni istanza include un'istruzione, una risposta candidata, un elenco di vincoli, etichette gold per vincolo e perturbazioni.
Varianti del prompt di valutazione testano la stabilità del giudice.
Vengono valutati sia giudici LLM proprietari che open-source.
Le metriche includono correttezza e incoerenza.
L'incoerenza intrinseca sotto decodifica stocastica è distinta dall'incoerenza procedurale sotto perturbazioni di prompt/risposta.
Una forte performance complessiva non garantisce una valutazione altrettanto robusta a livello di vincolo.

MCJudgeBench: Benchmark per la valutazione dei giudici LLM a livello di vincolo

Fatti principali

Entità

Istituzioni

Fonti