MCJudgeBench: Benchmark per la valutazione dei giudici LLM a livello di vincolo
Un nuovo benchmark, MCJudgeBench, valuta i giudici LLM a livello di vincolo nel seguire istruzioni con vincoli multipli. Ogni istanza include un'istruzione, una risposta candidata, un elenco esplicito di vincoli, etichette gold per vincolo (sì/parziale/no) e perturbazioni controllate. Il protocollo verifica la stabilità del giudice con varianti del prompt di valutazione. I giudici LLM proprietari e open-source vengono valutati utilizzando metriche di correttezza e incoerenza, distinguendo l'incoerenza intrinseca da quella procedurale. I risultati mostrano che l'affidabilità del giudice ha molteplici dimensioni; una forte performance complessiva non garantisce una valutazione altrettanto robusta a livello di vincolo.
Fatti principali
- MCJudgeBench è un benchmark per la valutazione dei giudici a livello di vincolo.
- Si concentra sul seguire istruzioni con vincoli multipli.
- Ogni istanza include un'istruzione, una risposta candidata, un elenco di vincoli, etichette gold per vincolo e perturbazioni.
- Varianti del prompt di valutazione testano la stabilità del giudice.
- Vengono valutati sia giudici LLM proprietari che open-source.
- Le metriche includono correttezza e incoerenza.
- L'incoerenza intrinseca sotto decodifica stocastica è distinta dall'incoerenza procedurale sotto perturbazioni di prompt/risposta.
- Una forte performance complessiva non garantisce una valutazione altrettanto robusta a livello di vincolo.
Entità
Istituzioni
- arXiv