ARTFEED — Contemporary Art Intelligence

La Prova Agente AI Raggiunge il 98% di Successo nella Verifica dei Programmi

ai-technology · 2026-05-25

Un nuovo studio valuta le capacità di prova agente di Claude Code sul benchmark CLEVER, un dataset Lean 4 per la generazione di codice verificabile. L'IA genera specifiche valide per il 98,8% dei problemi, certifica le implementazioni rispetto a specifiche ground-truth corrette per l'87,5% e raggiunge un tasso di successo del 98,1% nella generazione e verifica end-to-end dei programmi. Claude fornisce anche feedback di alta qualità sui propri tentativi, identificando cause di fallimento e bug nel dataset. La ricerca è stata pubblicata su arXiv (2605.23772) e dimostra prestazioni all'avanguardia nella dimostrazione automatica di teoremi per la verifica dei programmi.

Fatti principali

  • Claude Code valutato sul benchmark CLEVER per la verifica dei programmi
  • Il 98,8% dei problemi ha ricevuto specifiche valide
  • L'81,3% accettato dal punteggio basato sull'isomorfismo di CLEVER
  • Tasso di certificazione dell'87,5% rispetto a specifiche ground-truth corrette
  • Tasso di successo del 98,1% nel pipeline end-to-end con premesse autoconsistenti
  • Claude fornisce feedback di alta qualità sui propri tentativi
  • Ricerca pubblicata su arXiv (2605.23772)
  • I sistemi agenti sono all'avanguardia per la dimostrazione automatica di teoremi

Entità

Istituzioni

  • arXiv
  • CLEVER

Fonti