Benchmark MCP-TDP rivela rischi di avvelenamento delle descrizioni degli strumenti per agenti LLM

ai-technology · 2026-05-26

Un nuovo articolo di ricerca da arXiv (2605.24069) introduce il MCP-TDP Security Benchmark, un ambiente sandbox progettato per valutare gli attacchi di Tool Description Poisoning (TDP) su agenti Large Language Model (LLM) che utilizzano il Model Context Protocol (MCP). TDP è un attacco semantico in cui istruzioni dannose vengono iniettate nei metadati descrittivi di uno strumento anziché nel suo codice eseguibile, prendendo di mira il livello di pianificazione cognitiva dell'agente. Il benchmark comprende 32 casi di test realistici in 6 categorie di rischio. Lo studio ha valutato 8 LLM mainstream, rivelando vulnerabilità nel modo in cui gli agenti interpretano le descrizioni degli strumenti. La ricerca evidenzia una superficie di attacco nascosta introdotta dall'interoperabilità di MCP, che consente l'esecuzione autonoma integrando conoscenze e strumenti esterni.

Fatti principali

L'articolo di ricerca da arXiv (2605.24069) introduce il MCP-TDP Security Benchmark
Gli attacchi TDP iniettano istruzioni dannose nei metadati descrittivi degli strumenti
Il benchmark include 32 casi di test realistici in 6 categorie di rischio
Sono stati valutati 8 LLM mainstream
MCP standardizza l'uso degli strumenti per gli agenti LLM
L'attacco prende di mira il livello di pianificazione cognitiva degli agenti
Sono state trovate vulnerabilità nel modo in cui gli agenti interpretano le descrizioni degli strumenti
L'interoperabilità di MCP introduce una superficie di attacco nascosta

Benchmark MCP-TDP rivela rischi di avvelenamento delle descrizioni degli strumenti per agenti LLM

Fatti principali

Entità

Istituzioni

Fonti