Harness-Bench: Benchmarking degli Effetti del Livello di Esecuzione nei Flussi di Lavoro degli Agenti LLM

ai-technology · 2026-05-28

Harness-Bench, un nuovo standard diagnostico, esamina l'influenza delle configurazioni di harness—responsabili della gestione del contesto, degli strumenti, dello stato, dei vincoli, delle autorizzazioni, della tracciabilità e del recupero—sulle prestazioni degli agenti LLM in flussi di lavoro realistici. I benchmark tradizionali spesso trascurano l'esecuzione o mantengono un harness fisso, complicando l'analisi delle variazioni nel livello di esecuzione. Harness-Bench valuta una varietà di configurazioni di harness rappresentative su diversi backend di modello all'interno di ambienti di attività, budget e protocolli di valutazione coerenti, mantenendo le caratteristiche di esecuzione intrinseche di ciascun harness. Questo benchmark include 106 attività offline in sandbox ispirate a modelli di utilizzo reali degli agenti. I risultati sono disponibili su arXiv (paper 2605.27922).

Fatti principali

Harness-Bench è un benchmark diagnostico per valutare gli effetti dell'harness nei flussi di lavoro degli agenti LLM.
Valuta configurazioni di harness su più backend di modello in condizioni condivise.
Il benchmark contiene 106 attività offline in sandbox basate su modelli di utilizzo pratici degli agenti.
I benchmark esistenti astraggono l'esecuzione o mantengono l'harness fisso.
L'harness gestisce contesto, strumenti, stato, vincoli, autorizzazioni, tracciabilità e recupero.
Il paper è disponibile su arXiv con ID 2605.27922.

Harness-Bench: Benchmarking degli Effetti del Livello di Esecuzione nei Flussi di Lavoro degli Agenti LLM

Fatti principali

Entità

Istituzioni

Fonti