Suite di Benchmark Eseguibile per Agenti che Utilizzano Strumenti
Una suite di benchmark eseguibile recentemente sviluppata per agenti a ciclo chiuso che utilizzano strumenti chiarisce carichi di lavoro, driver e prove all'interno di un accordo di ammissione unificato. Questa suite incorpora WebArena Verified, un componente di SWE-Gym con verifica compatibile con SWE-bench, insieme a MiniWoB++ tramite adattatori condivisi, manifesti delle attività, schemi di eventi e pipeline di reporting. Distingue tra prove per pubblicazioni e voci di preflight, fixture, smoke e diagnostica, conservando artefatti non ammessi per scopi di audit. I record delle prove ammesse documentano latenza, comportamento di azioni non valide, costi di generazione di patch, metadati del verificatore, binding di replay e provenienza.
Fatti principali
- La suite collega WebArena Verified, la slice SWE-Gym e MiniWoB++
- Utilizza adattatori di carico di lavoro comuni, manifesti delle attività, schemi di eventi
- Separa le prove destinate alla pubblicazione dalle righe di preflight, fixture, smoke e diagnostica
- Conserva artefatti non ammessi per audit e onboarding
- Registra latenza, comportamento di azioni non valide, costo di generazione di patch, metadati del verificatore, binding di replay, provenienza
Entità
—