CAM-Bench: Nuovo Benchmark per la Matematica Computazionale in Lean
CAM-Bench introduce un nuovo insieme di 1.000 sfide di dimostrazione di teoremi in Lean 4, concentrandosi su matematica applicata e argomenti computazionali come analisi numerica, ottimizzazione e algebra lineare numerica. Questo benchmark colma un vuoto lasciato dalle valutazioni attuali che si concentrano principalmente su sfide in stile olimpico e aree algebriche. I problemi sono tratti da esercizi di libri di testo e si basano su definizioni specifiche, notazioni, algoritmi e risultati fondamentali introdotti localmente. Una pipeline di recupero delle dipendenze ricostruisce il contesto del libro di testo per presentare accuratamente ogni problema, normalizzandolo successivamente in un teorema informale e convertendolo in un obiettivo Lean. Questo benchmark facilita la verifica meccanica del ragionamento matematico all'interno di modelli linguistici di grandi dimensioni.
Fatti principali
- CAM-Bench contiene 1.000 obiettivi di dimostrazione in Lean 4.
- Copre ottimizzazione, algebra lineare numerica e analisi numerica.
- Problemi adattati da esercizi di libri di testo.
- Utilizza una pipeline di recupero delle dipendenze per ricostruire il contesto locale del libro di testo.
- Ogni problema è normalizzato in un teorema informale autonomo.
- Tradotto in un obiettivo Lean per la verifica formale.
- Affronta la sottorappresentazione della matematica computazionale e applicata nei benchmark esistenti.
- Consente una valutazione meccanicamente verificabile del ragionamento matematico degli LLM.
Entità
Istituzioni
- arXiv