CoCoReviewBench: Benchmark per la Valutazione dei Revisori AI
I ricercatori hanno introdotto CoCoReviewBench, un benchmark progettato per valutare i revisori AI con un focus su completezza e correttezza. Il benchmark affronta l'inaffidabilità delle revisioni umane come riferimenti gold costruendo sottoinsiemi specifici per categoria e saltando la valutazione quando le revisioni umane sono assenti. Sfrutta le discussioni revisore-autore-meta-revisore come annotazioni esperte e filtra le revisioni inaffidabili. CoCoReviewBench cura 3.900 articoli da ICLR e NeurIPS, consentendo una valutazione granulare. L'analisi rivela che i revisori AI sono limitati in correttezza e inclini ad allucinazioni, con i modelli di ragionamento che si dimostrano più efficaci.
Fatti principali
- CoCoReviewBench è un benchmark per revisori AI.
- Si concentra su completezza e correttezza.
- Le revisioni umane sono inaffidabili come riferimenti gold.
- Vengono utilizzati sottoinsiemi specifici per categoria.
- La valutazione viene saltata quando le revisioni umane sono assenti.
- Le discussioni revisore-autore-meta-revisore fungono da annotazioni esperte.
- Sono curati 3.900 articoli da ICLR e NeurIPS.
- I revisori AI sono inclini ad allucinazioni.
Entità
Istituzioni
- ICLR
- NeurIPS