ARTFEED — Contemporary Art Intelligence

AgentSearchBench: Benchmark per la Ricerca di Agenti AI nel Mondo Reale

ai-technology · 2026-04-27

AgentSearchBench è stato lanciato da ricercatori come un benchmark completo volto a localizzare agenti AI in situazioni pratiche. Questo benchmark deriva da quasi 10.000 agenti reali provenienti da vari fornitori e inquadra la ricerca di agenti come problemi di recupero e riordinamento, applicabili a query di task eseguibili e descrizioni di task di alto livello. Misura la rilevanza attraverso segnali di performance basati sull'esecuzione, affrontando la difficoltà di valutare le capacità degli agenti, che sono spesso compositive e dipendenti dall'esecuzione, utilizzando solo descrizioni testuali. Sebbene gli esperimenti mostrino risultati coerenti, l'abstract non dettaglia risultati specifici.

Fatti principali

  • AgentSearchBench è un benchmark su larga scala per la ricerca di agenti nel mondo reale.
  • Costruito da quasi 10.000 agenti reali provenienti da più fornitori.
  • Formalizza la ricerca di agenti come problemi di recupero e riordinamento.
  • Valuta la rilevanza utilizzando segnali di performance basati sull'esecuzione.
  • Affronta la sfida di valutare capacità degli agenti compositive e dipendenti dall'esecuzione.
  • Include sia query di task eseguibili che descrizioni di task di alto livello.
  • I benchmark esistenti assumono funzionalità ben specificate o pool di candidati controllati.
  • Il benchmark mira a studiare scenari realistici di ricerca di agenti.

Entità

Istituzioni

  • arXiv

Fonti