ARTFEED — Contemporary Art Intelligence

MM-ToolBench: Benchmark per l'uso di strumenti onni-modali da parte di agenti

ai-technology · 2026-05-20

Un nuovo benchmark e quadro di valutazione chiamato MM-ToolBench è stato sviluppato per valutare l'uso di strumenti onni-modali orientati ai compiti. Presenta 100 compiti eseguibili che coprono due principali macro-categorie di compiti—Servizio Clienti e Creazione Intelligente—comprendenti 20 sottocategorie e supportati da 27 server MCP dotati di 324 strumenti. Questo benchmark mira a colmare il divario tra le valutazioni attuali che considerano separatamente l'uso di strumenti, l'operatività al computer e il ragionamento multimodale, e l'applicazione olistica degli strumenti onni-modali in scenari reali. Il suo elemento chiave di design è la verifica multimodale a ciclo chiuso, che richiede agli agenti di utilizzare strumenti, valutare gli artefatti generati o modificati e apportare correzioni se i risultati sono inadeguati. Questa ricerca è documentata nel preprint arXiv 2605.16909.

Fatti principali

  • MM-ToolBench contiene 100 compiti eseguibili.
  • I compiti provengono dalle famiglie Servizio Clienti e Creazione Intelligente.
  • Sono coperte 20 sottocategorie.
  • 27 server MCP con 324 strumenti supportano il benchmark.
  • La verifica multimodale a ciclo chiuso è il design centrale.
  • Gli agenti devono autocorreggersi basandosi sull'ispezione degli artefatti.
  • I benchmark esistenti valutano l'uso di strumenti, l'uso del computer e il ragionamento multimodale in modo isolato.
  • Il benchmark mira a colmare il divario verso l'uso reale di strumenti onni-modali.

Entità

Istituzioni

  • arXiv

Fonti