Harness-Bench: Benchmarking degli Effetti del Livello di Esecuzione nei Flussi di Lavoro degli Agenti LLM
Harness-Bench, un nuovo standard diagnostico, esamina l'influenza delle configurazioni di harness—responsabili della gestione del contesto, degli strumenti, dello stato, dei vincoli, delle autorizzazioni, della tracciabilità e del recupero—sulle prestazioni degli agenti LLM in flussi di lavoro realistici. I benchmark tradizionali spesso trascurano l'esecuzione o mantengono un harness fisso, complicando l'analisi delle variazioni nel livello di esecuzione. Harness-Bench valuta una varietà di configurazioni di harness rappresentative su diversi backend di modello all'interno di ambienti di attività, budget e protocolli di valutazione coerenti, mantenendo le caratteristiche di esecuzione intrinseche di ciascun harness. Questo benchmark include 106 attività offline in sandbox ispirate a modelli di utilizzo reali degli agenti. I risultati sono disponibili su arXiv (paper 2605.27922).
Fatti principali
- Harness-Bench è un benchmark diagnostico per valutare gli effetti dell'harness nei flussi di lavoro degli agenti LLM.
- Valuta configurazioni di harness su più backend di modello in condizioni condivise.
- Il benchmark contiene 106 attività offline in sandbox basate su modelli di utilizzo pratici degli agenti.
- I benchmark esistenti astraggono l'esecuzione o mantengono l'harness fisso.
- L'harness gestisce contesto, strumenti, stato, vincoli, autorizzazioni, tracciabilità e recupero.
- Il paper è disponibile su arXiv con ID 2605.27922.
Entità
Istituzioni
- arXiv