La Prova Agente AI Raggiunge il 98% di Successo nella Verifica dei Programmi

ai-technology · 2026-05-25

Un nuovo studio valuta le capacità di prova agente di Claude Code sul benchmark CLEVER, un dataset Lean 4 per la generazione di codice verificabile. L'IA genera specifiche valide per il 98,8% dei problemi, certifica le implementazioni rispetto a specifiche ground-truth corrette per l'87,5% e raggiunge un tasso di successo del 98,1% nella generazione e verifica end-to-end dei programmi. Claude fornisce anche feedback di alta qualità sui propri tentativi, identificando cause di fallimento e bug nel dataset. La ricerca è stata pubblicata su arXiv (2605.23772) e dimostra prestazioni all'avanguardia nella dimostrazione automatica di teoremi per la verifica dei programmi.

Fatti principali

Claude Code valutato sul benchmark CLEVER per la verifica dei programmi
Il 98,8% dei problemi ha ricevuto specifiche valide
L'81,3% accettato dal punteggio basato sull'isomorfismo di CLEVER
Tasso di certificazione dell'87,5% rispetto a specifiche ground-truth corrette
Tasso di successo del 98,1% nel pipeline end-to-end con premesse autoconsistenti
Claude fornisce feedback di alta qualità sui propri tentativi
Ricerca pubblicata su arXiv (2605.23772)
I sistemi agenti sono all'avanguardia per la dimostrazione automatica di teoremi

La Prova Agente AI Raggiunge il 98% di Successo nella Verifica dei Programmi

Fatti principali

Entità

Istituzioni

Fonti