PocketAgents: Agenti di Difesa Autonoma Basati su Manifest per la Sicurezza dei LLM
Un team di ricercatori ha sviluppato innovativi agenti di difesa autonomi chiamati PocketAgents, progettati per migliorare la sicurezza dei modelli linguistici di grandi dimensioni (LLM). Ogni agente utilizza tre componenti essenziali: un manifest, un prompt e un contesto di esecuzione, che consentono un accesso limitato alla telemetria focalizzato su azioni specifiche. Questa tecnologia è stata testata nell'arena informatica Perry contro un attacco informatico simulato di DarkSide mirato a una rete di una piccola impresa. In una serie di 18 test, due agenti sono stati valutati per la loro efficacia; 13 hanno bloccato con successo le minacce alla rete, mentre quattro non hanno soddisfatto i requisiti di validazione e un test ha prodotto risultati ambigui. Questa strategia evidenzia la necessità di un processo decisionale proattivo nella difesa dei LLM.
Fatti principali
- PocketAgents è una libreria di agenti di difesa autonomi basata su manifest.
- Ogni agente è composto da tre file di dati: manifest, prompt e contesto di esecuzione.
- Il runtime condiviso fornisce un accesso limitato alla telemetria e accetta solo report tipizzati con azioni elencate nel manifest.
- Implementato sull'arena informatica Perry, un banco di prova per l'inganno informatico.
- Due agenti sono stati valutati: Comando e Controllo ed Esfiltrazione.
- Sono stati condotti 18 test a ciclo chiuso di un attacco ispirato a DarkSide su una topologia di piccola impresa.
- 13 test hanno prodotto azioni di blocco di rete validate che hanno contenuto l'attacco.
- 4 test hanno fallito la validazione dello schema; 1 ha prodotto un risultato non specificato.
Entità
Istituzioni
- arXiv
- Perry