ClawForge: Un Framework di Benchmark per Workflow di Agent a Linea di Comando

other · 2026-05-16

ClawForge è un framework di benchmark supportato da generatori, volto a valutare agenti interattivi a linea di comando in scenari realistici che coinvolgono conflitti di stato. A differenza dei benchmark tradizionali che avviano i task da uno stato incontaminato, ClawForge esamina come gli agenti gestiscono elementi preesistenti, parziali, obsoleti o in conflitto. Questo framework integra template di scenario, slot ancorati, stati inizializzati, traiettorie di riferimento e validatori per creare specifiche di task riproducibili. Valuta gli agenti in modo incrementale su superfici di workflow persistenti, concentrandosi su stati finali normalizzati ed effetti collaterali osservabili anziché sull'allineamento preciso delle traiettorie. Il documento di ricerca è disponibile su arXiv con l'identificatore 2605.14133.

Fatti principali

ClawForge è un framework di benchmark per agenti a linea di comando.
Si concentra su workflow eseguibili in presenza di conflitti di stato.
I benchmark esistenti inizializzano i task da uno stato pulito.
ClawForge testa la gestione di artefatti preesistenti, parziali, obsoleti o in conflitto.
Il framework utilizza template di scenario, slot ancorati, stato inizializzato, traiettorie di riferimento e validatori.
La valutazione utilizza lo stato finale normalizzato e gli effetti collaterali osservabili.
Il paper è su arXiv: 2605.14133.
Affronta la tensione tra costruzione scalabile e valutazione realistica del workflow.

ClawForge: Un Framework di Benchmark per Workflow di Agent a Linea di Comando

Fatti principali

Entità

Istituzioni

Fonti