BenchGuard: Audit automatizzato dei benchmark per agenti LLM
BenchGuard, un nuovo framework, utilizza LLM all'avanguardia per condurre audit sistematici dei benchmark per agenti orientati alle attività basati sull'esecuzione. Verifica tutti gli artefatti del benchmark attraverso protocolli LLM strutturati e può includere opzionalmente soluzioni degli agenti o tracce di esecuzione. Implementato su ScienceAgentBench e BIXBench, BenchGuard ha scoperto 12 problemi confermati dagli autori in ScienceAgentBench, inclusi errori critici, e si è allineato con l'83,3% dei problemi identificati dagli esperti su BIXBench Verified-50. Questo studio sottolinea che molti fallimenti attribuiti agli agenti sono, in realtà, fallimenti dei benchmark causati da specifiche errate, presupposti impliciti o script di valutazione inflessibili.
Fatti principali
- BenchGuard è il primo framework di audit automatizzato per benchmark di agenti orientati alle attività basati sull'esecuzione.
- Utilizza LLM all'avanguardia come auditor sistematici dell'infrastruttura di valutazione.
- Verifica incrociata di tutti gli artefatti del benchmark tramite protocolli LLM strutturati.
- Può incorporare soluzioni degli agenti o tracce di esecuzione come ulteriore evidenza diagnostica.
- Distribuito su ScienceAgentBench e BIXBench.
- Identificati 12 problemi confermati dagli autori in ScienceAgentBench, inclusi errori fatali.
- Corrispondenza esatta con l'83,3% dei problemi identificati dagli esperti su BIXBench Verified-50.
- Molti fallimenti degli agenti sono in realtà fallimenti dei benchmark.
Entità
Istituzioni
- arXiv