Claw-Eval-Live: Un Benchmark Live per Agenti di Workflow in Evoluzione
Claw-Eval-Live è stato lanciato da ricercatori come un benchmark dinamico progettato per valutare agenti LLM all'interno di flussi di lavoro reali in evoluzione. A differenza dei tradizionali benchmark statici che bloccano i set di compiti al momento del rilascio, Claw-Eval-Live distingue tra un livello di segnale aggiornabile e un'istantanea di rilascio riproducibile. I segnali pubblici di domanda di workflow, tra cui le competenze ClawHub Top-500, vengono utilizzati per aggiornare il livello di segnale con ogni rilascio. Ogni iterazione presenta compiti controllati con fixture, servizi, spazi di lavoro e valutatori stabiliti. Per la valutazione, il benchmark cattura tracce di esecuzione, log di audit, stati dei servizi e artefatti dagli spazi di lavoro post-esecuzione, utilizzando controlli deterministici quando sono presenti prove adeguate. Questa metodologia cerca di valutare la competenza degli agenti nell'eseguire compiti end-to-end attraverso vari strumenti software e servizi aziendali, affrontando la sfida di adattarsi a requisiti di workflow in evoluzione.
Fatti principali
- Claw-Eval-Live è un benchmark live per agenti di workflow.
- Separa un livello di segnale aggiornabile da un'istantanea di rilascio riproducibile.
- Il livello di segnale viene aggiornato dai segnali pubblici di domanda di workflow.
- Le competenze ClawHub Top-500 sono utilizzate nel rilascio corrente.
- I compiti sono materializzati con fixture, servizi, spazi di lavoro e valutatori fissi.
- La valutazione registra tracce di esecuzione, log di audit, stato del servizio e artefatti dello spazio di lavoro post-esecuzione.
- Vengono utilizzati controlli deterministici quando le prove sono sufficienti.
- Il benchmark valuta gli agenti LLM su unità di lavoro end-to-end.
Entità
Istituzioni
- arXiv