MM-ToolBench: Benchmark per l'uso di strumenti onni-modali da parte di agenti

ai-technology · 2026-05-20

Un nuovo benchmark e quadro di valutazione chiamato MM-ToolBench è stato sviluppato per valutare l'uso di strumenti onni-modali orientati ai compiti. Presenta 100 compiti eseguibili che coprono due principali macro-categorie di compiti—Servizio Clienti e Creazione Intelligente—comprendenti 20 sottocategorie e supportati da 27 server MCP dotati di 324 strumenti. Questo benchmark mira a colmare il divario tra le valutazioni attuali che considerano separatamente l'uso di strumenti, l'operatività al computer e il ragionamento multimodale, e l'applicazione olistica degli strumenti onni-modali in scenari reali. Il suo elemento chiave di design è la verifica multimodale a ciclo chiuso, che richiede agli agenti di utilizzare strumenti, valutare gli artefatti generati o modificati e apportare correzioni se i risultati sono inadeguati. Questa ricerca è documentata nel preprint arXiv 2605.16909.

Fatti principali

MM-ToolBench contiene 100 compiti eseguibili.
I compiti provengono dalle famiglie Servizio Clienti e Creazione Intelligente.
Sono coperte 20 sottocategorie.
27 server MCP con 324 strumenti supportano il benchmark.
La verifica multimodale a ciclo chiuso è il design centrale.
Gli agenti devono autocorreggersi basandosi sull'ispezione degli artefatti.
I benchmark esistenti valutano l'uso di strumenti, l'uso del computer e il ragionamento multimodale in modo isolato.
Il benchmark mira a colmare il divario verso l'uso reale di strumenti onni-modali.

MM-ToolBench: Benchmark per l'uso di strumenti onni-modali da parte di agenti

Fatti principali

Entità

Istituzioni

Fonti