La Prova Agente AI Raggiunge il 98% di Successo nella Verifica dei Programmi
Un nuovo studio valuta le capacità di prova agente di Claude Code sul benchmark CLEVER, un dataset Lean 4 per la generazione di codice verificabile. L'IA genera specifiche valide per il 98,8% dei problemi, certifica le implementazioni rispetto a specifiche ground-truth corrette per l'87,5% e raggiunge un tasso di successo del 98,1% nella generazione e verifica end-to-end dei programmi. Claude fornisce anche feedback di alta qualità sui propri tentativi, identificando cause di fallimento e bug nel dataset. La ricerca è stata pubblicata su arXiv (2605.23772) e dimostra prestazioni all'avanguardia nella dimostrazione automatica di teoremi per la verifica dei programmi.
Fatti principali
- Claude Code valutato sul benchmark CLEVER per la verifica dei programmi
- Il 98,8% dei problemi ha ricevuto specifiche valide
- L'81,3% accettato dal punteggio basato sull'isomorfismo di CLEVER
- Tasso di certificazione dell'87,5% rispetto a specifiche ground-truth corrette
- Tasso di successo del 98,1% nel pipeline end-to-end con premesse autoconsistenti
- Claude fornisce feedback di alta qualità sui propri tentativi
- Ricerca pubblicata su arXiv (2605.23772)
- I sistemi agenti sono all'avanguardia per la dimostrazione automatica di teoremi
Entità
Istituzioni
- arXiv
- CLEVER