ARTFEED — Contemporary Art Intelligence

Benchmark PBT-Bench testa agenti AI sul property-based testing

ai-technology · 2026-05-18

Un nuovo benchmark chiamato PBT-Bench è stato sviluppato dai ricercatori, con 100 sfide di property-based testing accuratamente selezionate, derivate da 40 librerie Python reali. Ogni sfida incorpora uno o più bug semantici, per un totale di 365, con una media di 3,65 bug per sfida, che difficilmente vengono attivati da input casuali predefiniti. Per avere successo, l'agente deve consultare la documentazione della libreria, individuare l'invariante rilevante e formulare una strategia Hypothesis @given che si concentri sull'area di attivazione. I bug sono categorizzati in tre livelli di difficoltà (L1-L3), che vanno da problemi di confine con un singolo vincolo a invarianti stateful complessi. Questo benchmark enfatizza l'abilità unica del property-based testing: estrarre un invariante semantico dalla documentazione e ideare una strategia precisa di generazione degli input. A differenza dei benchmark esistenti che valutano la capacità di un agente di generare test per bug noti o di creare correzioni, questo si concentra specificamente su questa abilità. Il documento è disponibile su arXiv con l'identificatore 2605.15229.

Fatti principali

  • PBT-Bench include 100 problemi di property-based testing curati su 40 librerie Python reali.
  • Ogni problema inietta uno o più bug semantici, per un totale di 365 bug con una media di 3,65 per problema.
  • I bug sono progettati in modo che input casuali con strategia predefinita quasi mai li attivino.
  • Gli agenti devono leggere la documentazione della libreria, identificare gli invarianti e specificare strategie Hypothesis @given.
  • I bug sono suddivisi in tre livelli di difficoltà (L1-L3).
  • L1 copre bug di confine con singolo vincolo; L3 copre invarianti stateful tra funzioni.
  • Il benchmark isola l'abilità del property-based testing da altri compiti di generazione di codice.
  • Il documento è disponibile su arXiv con l'identificatore 2605.15229.

Entità

Istituzioni

  • arXiv

Fonti