ClawTrojan Benchmark Espone Attacchi Trojan a Più Fasi su Agenti LLM
ClawTrojan è stato sviluppato dai ricercatori come benchmark per rilevare attacchi trojan a più fasi in harness agentici locali. Questi sistemi consentono agli agenti LLM di leggere e scrivere file, utilizzare strumenti e mantenere stati del workspace tra sessioni diverse, passando da semplici chatbot a strumenti funzionali. Gli aggressori possono inserire un'iniezione di prompt nell'output di un file o di uno strumento, che un agente potrebbe successivamente leggere, memorizzare ed eseguire. Sebbene ogni passo in questo processo a più fasi sembri innocuo individualmente, collettivamente trasformano testo non fidato in un mezzo di controllo persistente. Le difese attuali si concentrano sull'ispezione dei passi in isolamento, bloccando con successo azioni dannose evidenti ma trascurando l'operazione di scrittura iniziale che stabilisce il backdoor. ClawTrojan mira a esporre questa vulnerabilità.
Fatti principali
- ClawTrojan è un benchmark per attacchi trojan a più fasi in harness agentici locali.
- Gli agenti LLM possono leggere/scrivere file, chiamare strumenti e riutilizzare lo stato del workspace tra sessioni.
- Gli aggressori incorporano iniezioni di prompt in file o output di strumenti.
- Gli attacchi a più fasi appaiono benigni individualmente ma collettivamente consentono un controllo persistente.
- Le difese esistenti ispezionano ogni passo in isolamento, perdendo l'impianto del backdoor.
- La ricerca è pubblicata su arXiv con ID 2605.31042.
- L'articolo è un annuncio di tipo cross-type.
- Il modello di minaccia coinvolge agenti che memorizzano ed eseguono successivamente istruzioni nascoste.
Entità
Istituzioni
- arXiv