MathlibPR: Benchmark per la revisione assistita da LLM di librerie matematiche formali
I ricercatori hanno introdotto MathlibPR, un benchmark costruito a partire dalle storie reali delle pull request di Mathlib4, per valutare se i grandi modelli linguistici (LLM) possono assistere nella revisione dei contributi alle librerie matematiche formali. L'ecosistema Lean e Mathlib è diventato lo standard per il ragionamento formale assistito da LLM, ma la sua crescita è limitata dalla revisione umana. Il benchmark testa sia modelli LLM (DeepSeek, Qwen, Goedel, Kimina) che agenti LLM (Codex, Claude Code) nel giudicare la prontezza delle PR. I risultati iniziali mostrano che sia i modelli che gli agenti faticano a distinguere le PR pronte per il merge da quelle che necessitano modifiche.
Fatti principali
- MathlibPR è un benchmark costruito dalle storie reali delle pull request di Mathlib4
- L'ecosistema Lean e Mathlib è lo standard de facto per il ragionamento formale assistito da LLM
- La crescita di Mathlib è limitata dal processo di revisione umana
- Gli LLM vengono valutati sulla loro capacità di giudicare se le PR seguono le convenzioni di Mathlib
- I modelli testati includono DeepSeek, Qwen, Goedel e Kimina
- Gli agenti testati includono Codex e Claude Code
- Sia i modelli LLM che gli agenti faticano a distinguere le PR pronte per il merge
- Il benchmark propone un protocollo di valutazione a fasi
Entità
Istituzioni
- Mathlib
- Mathlib4
- Lean