Lanciata la Open Agent Leaderboard per il Benchmarking dei Sistemi AI Completi
IBM Research ha lanciato la Open Agent Leaderboard, un benchmark aperto progettato per valutare sistemi AI agent completi anziché solo i modelli sottostanti. La classifica valuta gli agenti su sei diversi benchmark—SWE-Bench Verified, BrowseComp+, AppWorld, tau2-Bench Airline & Retail e tau2-Bench Telecom—coprendo coding, ricerca, assistenza personale, servizio clienti e supporto tecnico. Riporta sia la qualità che il costo per attività, consentendo il confronto dell'effettiva implementabilità nel mondo reale. L'iniziativa è accompagnata dal framework Exgentic per riprodurre le valutazioni e da un articolo che descrive la metodologia. I primi risultati mostrano che gli agenti generici possono eguagliare quelli specializzati e che l'architettura dell'agente (ad esempio, la selezione preliminare degli strumenti) influisce significativamente sulle prestazioni. La classifica è aperta ai contributi della comunità per nuovi agenti, benchmark e modelli.
Fatti principali
- Open Agent Leaderboard lanciata da IBM Research.
- Valuta sistemi agent completi, non solo modelli.
- Sei benchmark: SWE-Bench Verified, BrowseComp+, AppWorld, tau2-Bench Airline & Retail, tau2-Bench Telecom.
- Riporta qualità e costo per attività.
- Accompagnata dal framework Exgentic e da un articolo sulla metodologia.
- Agenti generici competitivi con quelli specializzati.
- La selezione preliminare degli strumenti migliora le prestazioni su tutti i modelli.
- Aperta ai contributi della comunità tramite PR sul dataset dei risultati.
Entità
Istituzioni
- IBM Research
- Hugging Face