Claw-Eval-Live: Un Benchmark Live per Agenti di Workflow in Evoluzione

other · 2026-05-01

Claw-Eval-Live è stato lanciato da ricercatori come un benchmark dinamico progettato per valutare agenti LLM all'interno di flussi di lavoro reali in evoluzione. A differenza dei tradizionali benchmark statici che bloccano i set di compiti al momento del rilascio, Claw-Eval-Live distingue tra un livello di segnale aggiornabile e un'istantanea di rilascio riproducibile. I segnali pubblici di domanda di workflow, tra cui le competenze ClawHub Top-500, vengono utilizzati per aggiornare il livello di segnale con ogni rilascio. Ogni iterazione presenta compiti controllati con fixture, servizi, spazi di lavoro e valutatori stabiliti. Per la valutazione, il benchmark cattura tracce di esecuzione, log di audit, stati dei servizi e artefatti dagli spazi di lavoro post-esecuzione, utilizzando controlli deterministici quando sono presenti prove adeguate. Questa metodologia cerca di valutare la competenza degli agenti nell'eseguire compiti end-to-end attraverso vari strumenti software e servizi aziendali, affrontando la sfida di adattarsi a requisiti di workflow in evoluzione.

Fatti principali

Claw-Eval-Live è un benchmark live per agenti di workflow.
Separa un livello di segnale aggiornabile da un'istantanea di rilascio riproducibile.
Il livello di segnale viene aggiornato dai segnali pubblici di domanda di workflow.
Le competenze ClawHub Top-500 sono utilizzate nel rilascio corrente.
I compiti sono materializzati con fixture, servizi, spazi di lavoro e valutatori fissi.
La valutazione registra tracce di esecuzione, log di audit, stato del servizio e artefatti dello spazio di lavoro post-esecuzione.
Vengono utilizzati controlli deterministici quando le prove sono sufficienti.
Il benchmark valuta gli agenti LLM su unità di lavoro end-to-end.

Claw-Eval-Live: Un Benchmark Live per Agenti di Workflow in Evoluzione

Fatti principali

Entità

Istituzioni

Fonti