ARTFEED — Contemporary Art Intelligence

Claw-Eval-Live: Un Benchmark Live per Agenti di Workflow in Evoluzione

other · 2026-05-01

Claw-Eval-Live è stato lanciato da ricercatori come un benchmark dinamico progettato per valutare agenti LLM all'interno di flussi di lavoro reali in evoluzione. A differenza dei tradizionali benchmark statici che bloccano i set di compiti al momento del rilascio, Claw-Eval-Live distingue tra un livello di segnale aggiornabile e un'istantanea di rilascio riproducibile. I segnali pubblici di domanda di workflow, tra cui le competenze ClawHub Top-500, vengono utilizzati per aggiornare il livello di segnale con ogni rilascio. Ogni iterazione presenta compiti controllati con fixture, servizi, spazi di lavoro e valutatori stabiliti. Per la valutazione, il benchmark cattura tracce di esecuzione, log di audit, stati dei servizi e artefatti dagli spazi di lavoro post-esecuzione, utilizzando controlli deterministici quando sono presenti prove adeguate. Questa metodologia cerca di valutare la competenza degli agenti nell'eseguire compiti end-to-end attraverso vari strumenti software e servizi aziendali, affrontando la sfida di adattarsi a requisiti di workflow in evoluzione.

Fatti principali

  • Claw-Eval-Live è un benchmark live per agenti di workflow.
  • Separa un livello di segnale aggiornabile da un'istantanea di rilascio riproducibile.
  • Il livello di segnale viene aggiornato dai segnali pubblici di domanda di workflow.
  • Le competenze ClawHub Top-500 sono utilizzate nel rilascio corrente.
  • I compiti sono materializzati con fixture, servizi, spazi di lavoro e valutatori fissi.
  • La valutazione registra tracce di esecuzione, log di audit, stato del servizio e artefatti dello spazio di lavoro post-esecuzione.
  • Vengono utilizzati controlli deterministici quando le prove sono sufficienti.
  • Il benchmark valuta gli agenti LLM su unità di lavoro end-to-end.

Entità

Istituzioni

  • arXiv

Fonti