AgencyBench: Valutazione degli Agenti LLM in Contesti Reali con 1 Milione di Token
AgencyBench è un nuovo benchmark per valutare agenti autonomi basati su modelli linguistici di grandi dimensioni (LLM) in 32 scenari reali che richiedono fino a 1 milione di token e ore di tempo di esecuzione. Comprende 138 attività con query, deliverable e rubriche specifiche, coprendo 6 capacità agentiche fondamentali. Il benchmark utilizza un agente di simulazione utente per feedback iterativo e un sandbox Docker per la valutazione visiva e funzionale automatizzata, affrontando il collo di bottiglia della scalabilità del feedback umano. AgencyBench deriva dall'uso quotidiano dell'IA e mira a catturare compiti complessi a lungo termine che i benchmark esistenti non riescono a rappresentare.
Fatti principali
- AgencyBench è introdotto come un benchmark completo per agenti autonomi basati su LLM.
- Valuta 6 capacità agentiche fondamentali in 32 scenari reali.
- Il benchmark include 138 attività con query, deliverable e rubriche specifiche.
- Le attività richiedono in media 90 chiamate a strumenti, 1 milione di token e ore di tempo di esecuzione.
- La valutazione automatizzata utilizza un agente di simulazione utente per feedback iterativo.
- Un sandbox Docker conduce una valutazione visiva e funzionale basata su rubriche.
- Il benchmark affronta il collo di bottiglia della scalabilità del feedback umano.
- AgencyBench deriva dall'uso quotidiano dell'IA per catturare scenari reali a lungo termine.
Entità
Istituzioni
- arXiv