Distributed Sentinel: Prevenire le Violazioni a Contesto Frammentato nei Sistemi Multi-Agente AI
Una nuova minaccia alla sicurezza, denominata Violazioni a Contesto Frammentato (CFV), è stata riconosciuta e definita dai ricercatori nei sistemi multi-agente AI. Le CFV si verificano quando le azioni dei singoli agenti sembrano sicure isolatamente ma collettivamente violano le politiche organizzative a causa di informazioni politiche essenziali confinate in diversi dipartimenti. Gli attuali strumenti di allineamento basati su prompt e gli intercettori monolitici sono inefficaci nel gestire violazioni che attraversano questi confini contestuali. Per affrontare questo problema, il team ha introdotto Distributed Sentinel, un framework di enforcement a fiducia zero che impiega il Protocollo Semantic Taint Token (STT). Questo sistema utilizza proxy sidecar leggeri per condividere stati di sicurezza attraverso i confini organizzativi, proteggendo al contempo dati sensibili cross-dominio, facilitando la Simulazione di Grafi Controfattuali per la verifica delle politiche. Inoltre, i ricercatori hanno sviluppato PhantomEcosystem, un benchmark dettagliato con nove categorie di scenari realistici di violazione cross-agente. Il documento completo è disponibile su arXiv con l'identificatore 2604.22879.
Fatti principali
- Le Violazioni a Contesto Frammentato (CFV) sono una nuova classe di violazioni delle politiche nei sistemi multi-agente.
- Le CFV si verificano quando le azioni dei singoli agenti sono localmente sicure ma collettivamente violano le politiche a causa di fatti politici isolati.
- I meccanismi di allineamento esistenti e gli intercettori monolitici sono inefficaci contro le CFV.
- Distributed Sentinel è un'architettura di enforcement distribuita a fiducia zero proposta per affrontare le CFV.
- Il Protocollo Semantic Taint Token (STT) propaga lo stato di sicurezza attraverso i confini organizzativi senza esporre dati grezzi.
- La Simulazione di Grafi Controfattuali consente la verifica delle politiche cross-dominio.
- PhantomEcosystem è un benchmark con 9 categorie di scenari realistici di violazione cross-agente.
- Il documento è pubblicato su arXiv con ID 2604.22879.
Entità
Istituzioni
- arXiv