ARTFEED — Contemporary Art Intelligence

Suite di Benchmark Eseguibile per Agenti che Utilizzano Strumenti

other · 2026-05-13

Una suite di benchmark eseguibile recentemente sviluppata per agenti a ciclo chiuso che utilizzano strumenti chiarisce carichi di lavoro, driver e prove all'interno di un accordo di ammissione unificato. Questa suite incorpora WebArena Verified, un componente di SWE-Gym con verifica compatibile con SWE-bench, insieme a MiniWoB++ tramite adattatori condivisi, manifesti delle attività, schemi di eventi e pipeline di reporting. Distingue tra prove per pubblicazioni e voci di preflight, fixture, smoke e diagnostica, conservando artefatti non ammessi per scopi di audit. I record delle prove ammesse documentano latenza, comportamento di azioni non valide, costi di generazione di patch, metadati del verificatore, binding di replay e provenienza.

Fatti principali

  • La suite collega WebArena Verified, la slice SWE-Gym e MiniWoB++
  • Utilizza adattatori di carico di lavoro comuni, manifesti delle attività, schemi di eventi
  • Separa le prove destinate alla pubblicazione dalle righe di preflight, fixture, smoke e diagnostica
  • Conserva artefatti non ammessi per audit e onboarding
  • Registra latenza, comportamento di azioni non valide, costo di generazione di patch, metadati del verificatore, binding di replay, provenienza

Entità

Fonti