MathlibPR: Benchmark per la revisione assistita da LLM di librerie matematiche formali

other · 2026-05-11

I ricercatori hanno introdotto MathlibPR, un benchmark costruito a partire dalle storie reali delle pull request di Mathlib4, per valutare se i grandi modelli linguistici (LLM) possono assistere nella revisione dei contributi alle librerie matematiche formali. L'ecosistema Lean e Mathlib è diventato lo standard per il ragionamento formale assistito da LLM, ma la sua crescita è limitata dalla revisione umana. Il benchmark testa sia modelli LLM (DeepSeek, Qwen, Goedel, Kimina) che agenti LLM (Codex, Claude Code) nel giudicare la prontezza delle PR. I risultati iniziali mostrano che sia i modelli che gli agenti faticano a distinguere le PR pronte per il merge da quelle che necessitano modifiche.

Fatti principali

MathlibPR è un benchmark costruito dalle storie reali delle pull request di Mathlib4
L'ecosistema Lean e Mathlib è lo standard de facto per il ragionamento formale assistito da LLM
La crescita di Mathlib è limitata dal processo di revisione umana
Gli LLM vengono valutati sulla loro capacità di giudicare se le PR seguono le convenzioni di Mathlib
I modelli testati includono DeepSeek, Qwen, Goedel e Kimina
Gli agenti testati includono Codex e Claude Code
Sia i modelli LLM che gli agenti faticano a distinguere le PR pronte per il merge
Il benchmark propone un protocollo di valutazione a fasi

MathlibPR: Benchmark per la revisione assistita da LLM di librerie matematiche formali

Fatti principali

Entità

Istituzioni

Fonti