DeepTrap Framework Espone Vulnerabilità Contestuali nei Sistemi OpenClaw Agent
Un nuovo sistema automatizzato chiamato DeepTrap è stato sviluppato per identificare vulnerabilità nei modelli linguistici utilizzati in OpenClaw. Questa ricerca, dettagliata nell'articolo arXiv 2605.11047, si concentra sui rischi per la sicurezza legati a vari contesti di esecuzione come file, memoria e strumenti, che vanno oltre i semplici prompt utente. DeepTrap tratta la manipolazione avversaria del contesto come una sfida di ottimizzazione di traiettorie black-box, cercando di bilanciare rischio, integrità del compito e invisibilità. Il framework impiega valutazioni basate sul rischio e punteggi multi-obiettivo per identificare contesti compromessi. È stato creato un benchmark di 42 esempi attraverso sei tipi di vulnerabilità e sette scenari operativi, testando nove modelli utilizzando punteggi di attacco e utilità. I risultati indicano che compromissioni contestuali potrebbero portare ad azioni non sicure pur apparendo funzionali agli utenti.
Fatti principali
- 1. DeepTrap è un framework automatizzato per scoprire vulnerabilità contestuali in OpenClaw.
- 2. Il framework affronta i rischi per la sicurezza nei sistemi di modelli linguistici agentici con contesti di esecuzione mutabili.
- 3. La manipolazione avversaria del contesto è trattata come un problema di ottimizzazione di traiettorie a livello black-box.
- 4. Vengono bilanciati tre obiettivi: realizzazione del rischio, preservazione del compito benigno e invisibilità.
- 5. Le tecniche includono valutazione condizionata al rischio, punteggio multi-obiettivo delle traiettorie, ricerca a fascio guidata da ricompensa e sondaggio profondo basato su riflessione.
- 6. Un benchmark di 42 casi copre sei classi di vulnerabilità e sette scenari operativi.
- 7. Nove modelli target sono stati valutati utilizzando punteggi di attacco e utilità.
- 8. La compromissione contestuale può indurre comportamenti sostanzialmente non sicuri preservando la funzionalità visibile all'utente.
- 9. L'articolo è pubblicato su arXiv con ID 2605.11047.
- 10. La ricerca evidenzia rischi per la sicurezza oltre i prompt utente espliciti.
Entità
Istituzioni
- arXiv