ARTFEED — Contemporary Art Intelligence

Harness-Bench: Benchmarking degli Effetti del Livello di Esecuzione nei Flussi di Lavoro degli Agenti LLM

ai-technology · 2026-05-28

Harness-Bench, un nuovo standard diagnostico, esamina l'influenza delle configurazioni di harness—responsabili della gestione del contesto, degli strumenti, dello stato, dei vincoli, delle autorizzazioni, della tracciabilità e del recupero—sulle prestazioni degli agenti LLM in flussi di lavoro realistici. I benchmark tradizionali spesso trascurano l'esecuzione o mantengono un harness fisso, complicando l'analisi delle variazioni nel livello di esecuzione. Harness-Bench valuta una varietà di configurazioni di harness rappresentative su diversi backend di modello all'interno di ambienti di attività, budget e protocolli di valutazione coerenti, mantenendo le caratteristiche di esecuzione intrinseche di ciascun harness. Questo benchmark include 106 attività offline in sandbox ispirate a modelli di utilizzo reali degli agenti. I risultati sono disponibili su arXiv (paper 2605.27922).

Fatti principali

  • Harness-Bench è un benchmark diagnostico per valutare gli effetti dell'harness nei flussi di lavoro degli agenti LLM.
  • Valuta configurazioni di harness su più backend di modello in condizioni condivise.
  • Il benchmark contiene 106 attività offline in sandbox basate su modelli di utilizzo pratici degli agenti.
  • I benchmark esistenti astraggono l'esecuzione o mantengono l'harness fisso.
  • L'harness gestisce contesto, strumenti, stato, vincoli, autorizzazioni, tracciabilità e recupero.
  • Il paper è disponibile su arXiv con ID 2605.27922.

Entità

Istituzioni

  • arXiv

Fonti