ARTFEED — Contemporary Art Intelligence

AgencyBench: Valutazione degli Agenti LLM in Contesti Reali con 1 Milione di Token

ai-technology · 2026-04-25

AgencyBench è un nuovo benchmark per valutare agenti autonomi basati su modelli linguistici di grandi dimensioni (LLM) in 32 scenari reali che richiedono fino a 1 milione di token e ore di tempo di esecuzione. Comprende 138 attività con query, deliverable e rubriche specifiche, coprendo 6 capacità agentiche fondamentali. Il benchmark utilizza un agente di simulazione utente per feedback iterativo e un sandbox Docker per la valutazione visiva e funzionale automatizzata, affrontando il collo di bottiglia della scalabilità del feedback umano. AgencyBench deriva dall'uso quotidiano dell'IA e mira a catturare compiti complessi a lungo termine che i benchmark esistenti non riescono a rappresentare.

Fatti principali

  • AgencyBench è introdotto come un benchmark completo per agenti autonomi basati su LLM.
  • Valuta 6 capacità agentiche fondamentali in 32 scenari reali.
  • Il benchmark include 138 attività con query, deliverable e rubriche specifiche.
  • Le attività richiedono in media 90 chiamate a strumenti, 1 milione di token e ore di tempo di esecuzione.
  • La valutazione automatizzata utilizza un agente di simulazione utente per feedback iterativo.
  • Un sandbox Docker conduce una valutazione visiva e funzionale basata su rubriche.
  • Il benchmark affronta il collo di bottiglia della scalabilità del feedback umano.
  • AgencyBench deriva dall'uso quotidiano dell'IA per catturare scenari reali a lungo termine.

Entità

Istituzioni

  • arXiv

Fonti