ARTFEED — Contemporary Art Intelligence

COVCAL: Selezione a Rischio Controllato con Lean come Giudice per il Ragionamento Matematico

other · 2026-05-28

Un recente preprint su arXiv (2605.28365) introduce COVCAL, una tecnica mirata alla selezione a rischio controllato di risposte matematiche in linguaggio naturale valutate dall'assistente di dimostrazione Lean. La ricerca indica che il segnale di Lean si basa sulla copertura: su MATH-500, le risposte che vincono le dimostrazioni sono accurate nel 96% dei casi con alta copertura dimostrata, scendendo al solo 20% con bassa copertura. Inoltre, il segnale è sparso e inaffidabile; un autoformalizzatore da 7B dimostra con successo solo il 28% dei problemi, con circa il 43% di quelle dimostrazioni ritenute fedeli dopo una revisione manuale. COVCAL stabilisce un limite di rischio selettivo a campione finito per le risposte accettate o opta per l'astensione, utilizzando o un limite conservativo di Bonferroni o una regola più precisa di dev-then-cal. La fattibilità del metodo dipende dalla copertura dell'autoformalizzazione; con il formalizzatore da 7B, la scarsità del segnale porta Bonferroni ad astenersi in tutte le 20 partizioni bootstrap.

Fatti principali

  • Lean è usato per giudicare risposte matematiche in linguaggio naturale, ma il suo segnale è parziale.
  • Su MATH-500, la risposta che vince la dimostrazione è corretta nel 96% dei casi con alta copertura dimostrata.
  • Con bassa copertura, la risposta che vince la dimostrazione è corretta solo nel 20% dei casi.
  • Un autoformalizzatore da 7B dimostra una classe solo per il 28% dei problemi.
  • Solo circa il 43% di quelle dimostrazioni sono fedeli dopo un audit manuale.
  • COVCAL è un selettore basato su diagnostiche di traccia Lean che certifica un limite di rischio selettivo.
  • Due regimi: limite conservativo di Bonferroni e regola più stretta di dev-then-cal.
  • Con il formalizzatore da 7B, Bonferroni si astiene su tutte le 20 partizioni bootstrap.

Entità

Fonti