ARTFEED — Contemporary Art Intelligence

Lanciata la Open Agent Leaderboard per il Benchmarking dei Sistemi AI Completi

ai-technology · 2026-05-18

IBM Research ha lanciato la Open Agent Leaderboard, un benchmark aperto progettato per valutare sistemi AI agent completi anziché solo i modelli sottostanti. La classifica valuta gli agenti su sei diversi benchmark—SWE-Bench Verified, BrowseComp+, AppWorld, tau2-Bench Airline & Retail e tau2-Bench Telecom—coprendo coding, ricerca, assistenza personale, servizio clienti e supporto tecnico. Riporta sia la qualità che il costo per attività, consentendo il confronto dell'effettiva implementabilità nel mondo reale. L'iniziativa è accompagnata dal framework Exgentic per riprodurre le valutazioni e da un articolo che descrive la metodologia. I primi risultati mostrano che gli agenti generici possono eguagliare quelli specializzati e che l'architettura dell'agente (ad esempio, la selezione preliminare degli strumenti) influisce significativamente sulle prestazioni. La classifica è aperta ai contributi della comunità per nuovi agenti, benchmark e modelli.

Fatti principali

  • Open Agent Leaderboard lanciata da IBM Research.
  • Valuta sistemi agent completi, non solo modelli.
  • Sei benchmark: SWE-Bench Verified, BrowseComp+, AppWorld, tau2-Bench Airline & Retail, tau2-Bench Telecom.
  • Riporta qualità e costo per attività.
  • Accompagnata dal framework Exgentic e da un articolo sulla metodologia.
  • Agenti generici competitivi con quelli specializzati.
  • La selezione preliminare degli strumenti migliora le prestazioni su tutti i modelli.
  • Aperta ai contributi della comunità tramite PR sul dataset dei risultati.

Entità

Istituzioni

  • IBM Research
  • Hugging Face

Fonti