FormalRewardBench: Primo Benchmark per Modelli di Ricompensa nella Dimostrazione Formale di Teoremi
I ricercatori hanno introdotto FormalRewardBench, il primo benchmark progettato per valutare i modelli di ricompensa nella dimostrazione formale di teoremi utilizzando Lean 4. Il benchmark affronta il problema della scarsa attribuzione del credito nei dimostratori neurali di teoremi che si basano sull'apprendimento per rinforzo con ricompense verificabili (RLVR), dove i segnali binari di correttezza provenienti dagli assistenti di dimostrazione non forniscono segnali di apprendimento per progressi parziali. FormalRewardBench consiste in 250 coppie di preferenza, ciascuna delle quali abbina una dimostrazione corretta a una variante errata generata attraverso cinque strategie di iniezione di errori curate da esperti: errori forzati, variazioni minime su un singolo punto e dimostrazioni errate verbose. Questo benchmark consente il confronto di modelli di ricompensa appresi senza costose ablazioni di addestramento RL, facilitando il progresso nella dimostrazione automatica di teoremi.
Fatti principali
- FormalRewardBench è il primo benchmark per modelli di ricompensa nella dimostrazione formale di teoremi con Lean 4.
- Affronta il problema della scarsa attribuzione del credito nei dimostratori neurali di teoremi basati su RLVR.
- Il benchmark contiene 250 coppie di preferenza di dimostrazioni corrette e errate.
- Le varianti errate sono generate tramite cinque strategie di iniezione di errori.
- Le strategie includono errori forzati, variazioni minime su un singolo punto e dimostrazioni errate verbose.
- Consente la valutazione di modelli di ricompensa senza costose ablazioni di addestramento RL.
- Il lavoro è pubblicato su arXiv con ID 2605.10141.
- L'approccio mira a migliorare l'apprendimento da progressi parziali nella dimostrazione di teoremi.
Entità
Istituzioni
- arXiv