GR-Ben: Nuovo benchmark per valutare i modelli di ricompensa dei processi oltre la matematica
I ricercatori hanno introdotto GR-Ben, un benchmark a livello di processo per valutare i modelli di ricompensa dei processi (PRM) in due domini di ragionamento principali—scienza e logica—e nove sottodomini. I benchmark esistenti si concentrano principalmente sul ragionamento matematico, non riuscendo a valutare la capacità di rilevamento degli errori dei PRM in scenari diversi. GR-Ben testa 22 modelli, inclusi PRM e grandi modelli linguistici (LLM), rivelando che la capacità di rilevamento degli errori diminuisce nei domini non matematici. Il benchmark risponde alla necessità di una valutazione completa, poiché gli LLM spesso producono passaggi di ragionamento intermedi imperfetti. L'articolo è disponibile su arXiv.
Fatti principali
- GR-Ben è un benchmark a livello di processo per i PRM.
- Copre due domini di ragionamento principali: scienza e logica.
- Include nove sottodomini.
- Sono stati testati 22 modelli, inclusi PRM e LLM.
- I benchmark esistenti si concentrano principalmente sul ragionamento matematico.
- La capacità di rilevamento degli errori diminuisce nei domini non matematici.
- Il benchmark risponde alla necessità di rilevamento degli errori nel mondo reale.
- L'articolo è pubblicato su arXiv.
Entità
Istituzioni
- arXiv