Lanciata la Open Agent Leaderboard per il Benchmarking dei Sistemi AI Completi

ai-technology · 2026-05-18

IBM Research ha lanciato la Open Agent Leaderboard, un benchmark aperto progettato per valutare sistemi AI agent completi anziché solo i modelli sottostanti. La classifica valuta gli agenti su sei diversi benchmark—SWE-Bench Verified, BrowseComp+, AppWorld, tau2-Bench Airline & Retail e tau2-Bench Telecom—coprendo coding, ricerca, assistenza personale, servizio clienti e supporto tecnico. Riporta sia la qualità che il costo per attività, consentendo il confronto dell'effettiva implementabilità nel mondo reale. L'iniziativa è accompagnata dal framework Exgentic per riprodurre le valutazioni e da un articolo che descrive la metodologia. I primi risultati mostrano che gli agenti generici possono eguagliare quelli specializzati e che l'architettura dell'agente (ad esempio, la selezione preliminare degli strumenti) influisce significativamente sulle prestazioni. La classifica è aperta ai contributi della comunità per nuovi agenti, benchmark e modelli.

Fatti principali

Open Agent Leaderboard lanciata da IBM Research.
Valuta sistemi agent completi, non solo modelli.
Sei benchmark: SWE-Bench Verified, BrowseComp+, AppWorld, tau2-Bench Airline & Retail, tau2-Bench Telecom.
Riporta qualità e costo per attività.
Accompagnata dal framework Exgentic e da un articolo sulla metodologia.
Agenti generici competitivi con quelli specializzati.
La selezione preliminare degli strumenti migliora le prestazioni su tutti i modelli.
Aperta ai contributi della comunità tramite PR sul dataset dei risultati.

Lanciata la Open Agent Leaderboard per il Benchmarking dei Sistemi AI Completi

Fatti principali

Entità

Istituzioni

Fonti