ARTFEED — Contemporary Art Intelligence

BenchGuard: Audit automatizzato dei benchmark per agenti LLM

ai-technology · 2026-04-30

BenchGuard, un nuovo framework, utilizza LLM all'avanguardia per condurre audit sistematici dei benchmark per agenti orientati alle attività basati sull'esecuzione. Verifica tutti gli artefatti del benchmark attraverso protocolli LLM strutturati e può includere opzionalmente soluzioni degli agenti o tracce di esecuzione. Implementato su ScienceAgentBench e BIXBench, BenchGuard ha scoperto 12 problemi confermati dagli autori in ScienceAgentBench, inclusi errori critici, e si è allineato con l'83,3% dei problemi identificati dagli esperti su BIXBench Verified-50. Questo studio sottolinea che molti fallimenti attribuiti agli agenti sono, in realtà, fallimenti dei benchmark causati da specifiche errate, presupposti impliciti o script di valutazione inflessibili.

Fatti principali

  • BenchGuard è il primo framework di audit automatizzato per benchmark di agenti orientati alle attività basati sull'esecuzione.
  • Utilizza LLM all'avanguardia come auditor sistematici dell'infrastruttura di valutazione.
  • Verifica incrociata di tutti gli artefatti del benchmark tramite protocolli LLM strutturati.
  • Può incorporare soluzioni degli agenti o tracce di esecuzione come ulteriore evidenza diagnostica.
  • Distribuito su ScienceAgentBench e BIXBench.
  • Identificati 12 problemi confermati dagli autori in ScienceAgentBench, inclusi errori fatali.
  • Corrispondenza esatta con l'83,3% dei problemi identificati dagli esperti su BIXBench Verified-50.
  • Molti fallimenti degli agenti sono in realtà fallimenti dei benchmark.

Entità

Istituzioni

  • arXiv

Fonti