COVCAL: Selezione a Rischio Controllato con Lean come Giudice per il Ragionamento Matematico
Un recente preprint su arXiv (2605.28365) introduce COVCAL, una tecnica mirata alla selezione a rischio controllato di risposte matematiche in linguaggio naturale valutate dall'assistente di dimostrazione Lean. La ricerca indica che il segnale di Lean si basa sulla copertura: su MATH-500, le risposte che vincono le dimostrazioni sono accurate nel 96% dei casi con alta copertura dimostrata, scendendo al solo 20% con bassa copertura. Inoltre, il segnale è sparso e inaffidabile; un autoformalizzatore da 7B dimostra con successo solo il 28% dei problemi, con circa il 43% di quelle dimostrazioni ritenute fedeli dopo una revisione manuale. COVCAL stabilisce un limite di rischio selettivo a campione finito per le risposte accettate o opta per l'astensione, utilizzando o un limite conservativo di Bonferroni o una regola più precisa di dev-then-cal. La fattibilità del metodo dipende dalla copertura dell'autoformalizzazione; con il formalizzatore da 7B, la scarsità del segnale porta Bonferroni ad astenersi in tutte le 20 partizioni bootstrap.
Fatti principali
- Lean è usato per giudicare risposte matematiche in linguaggio naturale, ma il suo segnale è parziale.
- Su MATH-500, la risposta che vince la dimostrazione è corretta nel 96% dei casi con alta copertura dimostrata.
- Con bassa copertura, la risposta che vince la dimostrazione è corretta solo nel 20% dei casi.
- Un autoformalizzatore da 7B dimostra una classe solo per il 28% dei problemi.
- Solo circa il 43% di quelle dimostrazioni sono fedeli dopo un audit manuale.
- COVCAL è un selettore basato su diagnostiche di traccia Lean che certifica un limite di rischio selettivo.
- Due regimi: limite conservativo di Bonferroni e regola più stretta di dev-then-cal.
- Con il formalizzatore da 7B, Bonferroni si astiene su tutte le 20 partizioni bootstrap.
Entità
—