Benchmark MCP-TDP rivela rischi di avvelenamento delle descrizioni degli strumenti per agenti LLM
Un nuovo articolo di ricerca da arXiv (2605.24069) introduce il MCP-TDP Security Benchmark, un ambiente sandbox progettato per valutare gli attacchi di Tool Description Poisoning (TDP) su agenti Large Language Model (LLM) che utilizzano il Model Context Protocol (MCP). TDP è un attacco semantico in cui istruzioni dannose vengono iniettate nei metadati descrittivi di uno strumento anziché nel suo codice eseguibile, prendendo di mira il livello di pianificazione cognitiva dell'agente. Il benchmark comprende 32 casi di test realistici in 6 categorie di rischio. Lo studio ha valutato 8 LLM mainstream, rivelando vulnerabilità nel modo in cui gli agenti interpretano le descrizioni degli strumenti. La ricerca evidenzia una superficie di attacco nascosta introdotta dall'interoperabilità di MCP, che consente l'esecuzione autonoma integrando conoscenze e strumenti esterni.
Fatti principali
- L'articolo di ricerca da arXiv (2605.24069) introduce il MCP-TDP Security Benchmark
- Gli attacchi TDP iniettano istruzioni dannose nei metadati descrittivi degli strumenti
- Il benchmark include 32 casi di test realistici in 6 categorie di rischio
- Sono stati valutati 8 LLM mainstream
- MCP standardizza l'uso degli strumenti per gli agenti LLM
- L'attacco prende di mira il livello di pianificazione cognitiva degli agenti
- Sono state trovate vulnerabilità nel modo in cui gli agenti interpretano le descrizioni degli strumenti
- L'interoperabilità di MCP introduce una superficie di attacco nascosta
Entità
Istituzioni
- arXiv