AgencyBench: Valutazione degli Agenti LLM in Contesti Reali con 1 Milione di Token

ai-technology · 2026-04-25

AgencyBench è un nuovo benchmark per valutare agenti autonomi basati su modelli linguistici di grandi dimensioni (LLM) in 32 scenari reali che richiedono fino a 1 milione di token e ore di tempo di esecuzione. Comprende 138 attività con query, deliverable e rubriche specifiche, coprendo 6 capacità agentiche fondamentali. Il benchmark utilizza un agente di simulazione utente per feedback iterativo e un sandbox Docker per la valutazione visiva e funzionale automatizzata, affrontando il collo di bottiglia della scalabilità del feedback umano. AgencyBench deriva dall'uso quotidiano dell'IA e mira a catturare compiti complessi a lungo termine che i benchmark esistenti non riescono a rappresentare.

Fatti principali

AgencyBench è introdotto come un benchmark completo per agenti autonomi basati su LLM.
Valuta 6 capacità agentiche fondamentali in 32 scenari reali.
Il benchmark include 138 attività con query, deliverable e rubriche specifiche.
Le attività richiedono in media 90 chiamate a strumenti, 1 milione di token e ore di tempo di esecuzione.
La valutazione automatizzata utilizza un agente di simulazione utente per feedback iterativo.
Un sandbox Docker conduce una valutazione visiva e funzionale basata su rubriche.
Il benchmark affronta il collo di bottiglia della scalabilità del feedback umano.
AgencyBench deriva dall'uso quotidiano dell'IA per catturare scenari reali a lungo termine.

AgencyBench: Valutazione degli Agenti LLM in Contesti Reali con 1 Milione di Token

Fatti principali

Entità

Istituzioni

Fonti