MCPShield: Rilevamento di Attacchi Basato su Grafi per il Traffico di Tool-Call negli LLM
MCPShield è un framework innovativo progettato per rilevare attacchi al traffico di tool-call del Model Context Protocol (MCP) all'interno di agenti LLM. Rappresenta ogni sessione dell'agente come un grafo, dove le chiamate agli strumenti fungono da nodi e le connessioni sequenziali/di flusso di dati fungono da archi, arricchendo i nodi con caratteristiche di embedding di frasi derivate da argomenti e risposte. Il sistema classifica le sessioni come benigne o attaccate. Le valutazioni condotte su RAS-Eval, ATBench e una variante a fonti combinate prevedono confronti tra tre architetture GNN (GAT, GCN, GraphSAGE), un MLP non basato su grafi e modelli tradizionali (XGBoost, random forest, regressione logistica, SVM lineare). GraphSAGE è mantenuto come benchmark GNN per ATBench e la variante a fonti combinate. È importante notare che le caratteristiche a livello di contenuto si rivelano cruciali, mentre le strategie basate solo su metadati sono insufficienti.
Fatti principali
- MCPShield è un framework di rilevamento attacchi per il traffico di tool-call MCP.
- Codifica le sessioni dell'agente come grafi con le chiamate agli strumenti come nodi.
- I nodi sono arricchiti con caratteristiche di embedding di frasi da argomenti e risposte.
- Vengono valutate tre architetture GNN: GAT, GCN, GraphSAGE.
- I baselines classici includono XGBoost, random forest, regressione logistica, SVM lineare.
- GraphSAGE è il baseline GNN su ATBench e sulla variante a fonti combinate.
- Le caratteristiche a livello di contenuto sono essenziali per il rilevamento.
- Gli approcci basati solo su metadati hanno prestazioni inferiori.
Entità
Istituzioni
- arXiv