ARTFEED — Contemporary Art Intelligence

CAM-Bench: Nuovo Benchmark per la Matematica Computazionale in Lean

other · 2026-05-20

CAM-Bench introduce un nuovo insieme di 1.000 sfide di dimostrazione di teoremi in Lean 4, concentrandosi su matematica applicata e argomenti computazionali come analisi numerica, ottimizzazione e algebra lineare numerica. Questo benchmark colma un vuoto lasciato dalle valutazioni attuali che si concentrano principalmente su sfide in stile olimpico e aree algebriche. I problemi sono tratti da esercizi di libri di testo e si basano su definizioni specifiche, notazioni, algoritmi e risultati fondamentali introdotti localmente. Una pipeline di recupero delle dipendenze ricostruisce il contesto del libro di testo per presentare accuratamente ogni problema, normalizzandolo successivamente in un teorema informale e convertendolo in un obiettivo Lean. Questo benchmark facilita la verifica meccanica del ragionamento matematico all'interno di modelli linguistici di grandi dimensioni.

Fatti principali

  • CAM-Bench contiene 1.000 obiettivi di dimostrazione in Lean 4.
  • Copre ottimizzazione, algebra lineare numerica e analisi numerica.
  • Problemi adattati da esercizi di libri di testo.
  • Utilizza una pipeline di recupero delle dipendenze per ricostruire il contesto locale del libro di testo.
  • Ogni problema è normalizzato in un teorema informale autonomo.
  • Tradotto in un obiettivo Lean per la verifica formale.
  • Affronta la sottorappresentazione della matematica computazionale e applicata nei benchmark esistenti.
  • Consente una valutazione meccanicamente verificabile del ragionamento matematico degli LLM.

Entità

Istituzioni

  • arXiv

Fonti