AgentSearchBench: Benchmark per la Ricerca di Agenti AI nel Mondo Reale
AgentSearchBench è stato lanciato da ricercatori come un benchmark completo volto a localizzare agenti AI in situazioni pratiche. Questo benchmark deriva da quasi 10.000 agenti reali provenienti da vari fornitori e inquadra la ricerca di agenti come problemi di recupero e riordinamento, applicabili a query di task eseguibili e descrizioni di task di alto livello. Misura la rilevanza attraverso segnali di performance basati sull'esecuzione, affrontando la difficoltà di valutare le capacità degli agenti, che sono spesso compositive e dipendenti dall'esecuzione, utilizzando solo descrizioni testuali. Sebbene gli esperimenti mostrino risultati coerenti, l'abstract non dettaglia risultati specifici.
Fatti principali
- AgentSearchBench è un benchmark su larga scala per la ricerca di agenti nel mondo reale.
- Costruito da quasi 10.000 agenti reali provenienti da più fornitori.
- Formalizza la ricerca di agenti come problemi di recupero e riordinamento.
- Valuta la rilevanza utilizzando segnali di performance basati sull'esecuzione.
- Affronta la sfida di valutare capacità degli agenti compositive e dipendenti dall'esecuzione.
- Include sia query di task eseguibili che descrizioni di task di alto livello.
- I benchmark esistenti assumono funzionalità ben specificate o pool di candidati controllati.
- Il benchmark mira a studiare scenari realistici di ricerca di agenti.
Entità
Istituzioni
- arXiv