MCPShield: Rilevamento di Attacchi Basato su Grafi per il Traffico di Tool-Call negli LLM

ai-technology · 2026-05-13

MCPShield è un framework innovativo progettato per rilevare attacchi al traffico di tool-call del Model Context Protocol (MCP) all'interno di agenti LLM. Rappresenta ogni sessione dell'agente come un grafo, dove le chiamate agli strumenti fungono da nodi e le connessioni sequenziali/di flusso di dati fungono da archi, arricchendo i nodi con caratteristiche di embedding di frasi derivate da argomenti e risposte. Il sistema classifica le sessioni come benigne o attaccate. Le valutazioni condotte su RAS-Eval, ATBench e una variante a fonti combinate prevedono confronti tra tre architetture GNN (GAT, GCN, GraphSAGE), un MLP non basato su grafi e modelli tradizionali (XGBoost, random forest, regressione logistica, SVM lineare). GraphSAGE è mantenuto come benchmark GNN per ATBench e la variante a fonti combinate. È importante notare che le caratteristiche a livello di contenuto si rivelano cruciali, mentre le strategie basate solo su metadati sono insufficienti.

Fatti principali

MCPShield è un framework di rilevamento attacchi per il traffico di tool-call MCP.
Codifica le sessioni dell'agente come grafi con le chiamate agli strumenti come nodi.
I nodi sono arricchiti con caratteristiche di embedding di frasi da argomenti e risposte.
Vengono valutate tre architetture GNN: GAT, GCN, GraphSAGE.
I baselines classici includono XGBoost, random forest, regressione logistica, SVM lineare.
GraphSAGE è il baseline GNN su ATBench e sulla variante a fonti combinate.
Le caratteristiche a livello di contenuto sono essenziali per il rilevamento.
Gli approcci basati solo su metadati hanno prestazioni inferiori.

MCPShield: Rilevamento di Attacchi Basato su Grafi per il Traffico di Tool-Call negli LLM

Fatti principali

Entità

Istituzioni

Fonti