Il benchmark ComplexMCP rivela che gli agenti LLM falliscono nell'uso di strumenti nel mondo reale
Un nuovo benchmark chiamato ComplexMCP valuta gli agenti LLM sull'uso interdipendente di strumenti in ambienti dinamici, rivelando un significativo divario di prestazioni rispetto agli umani. Basato sul Model Context Protocol (MCP), il benchmark include oltre 300 strumenti da 7 sandbox con stato che coprono suite per ufficio e sistemi finanziari. Utilizza un'architettura basata su seed per simulare stati dinamici e fallimenti imprevedibili delle API. Le valutazioni su paradigmi full-context e RAG mostrano che i modelli di alto livello raggiungono meno del 60% di successo, mentre gli umani raggiungono il 90%.
Fatti principali
- ComplexMCP è un benchmark per agenti LLM in sandbox di strumenti dinamici e interdipendenti.
- Fornisce oltre 300 strumenti da 7 sandbox con stato.
- Gli strumenti sono atomici, interdipendenti e soggetti a rumore ambientale.
- Il benchmark utilizza un'architettura basata su seed per stati dinamici e fallimenti delle API.
- I migliori LLM non superano il 60% di successo.
- Le prestazioni umane sono del 90%.
- La valutazione copre paradigmi full-context e RAG.
- Basato sul Model Context Protocol (MCP).
Entità
—