MM-ToolBench: Benchmark per l'uso di strumenti onni-modali da parte di agenti
Un nuovo benchmark e quadro di valutazione chiamato MM-ToolBench è stato sviluppato per valutare l'uso di strumenti onni-modali orientati ai compiti. Presenta 100 compiti eseguibili che coprono due principali macro-categorie di compiti—Servizio Clienti e Creazione Intelligente—comprendenti 20 sottocategorie e supportati da 27 server MCP dotati di 324 strumenti. Questo benchmark mira a colmare il divario tra le valutazioni attuali che considerano separatamente l'uso di strumenti, l'operatività al computer e il ragionamento multimodale, e l'applicazione olistica degli strumenti onni-modali in scenari reali. Il suo elemento chiave di design è la verifica multimodale a ciclo chiuso, che richiede agli agenti di utilizzare strumenti, valutare gli artefatti generati o modificati e apportare correzioni se i risultati sono inadeguati. Questa ricerca è documentata nel preprint arXiv 2605.16909.
Fatti principali
- MM-ToolBench contiene 100 compiti eseguibili.
- I compiti provengono dalle famiglie Servizio Clienti e Creazione Intelligente.
- Sono coperte 20 sottocategorie.
- 27 server MCP con 324 strumenti supportano il benchmark.
- La verifica multimodale a ciclo chiuso è il design centrale.
- Gli agenti devono autocorreggersi basandosi sull'ispezione degli artefatti.
- I benchmark esistenti valutano l'uso di strumenti, l'uso del computer e il ragionamento multimodale in modo isolato.
- Il benchmark mira a colmare il divario verso l'uso reale di strumenti onni-modali.
Entità
Istituzioni
- arXiv