DeepTrap Framework Espone Vulnerabilità Contestuali nei Sistemi OpenClaw Agent

ai-technology · 2026-05-13

Un nuovo sistema automatizzato chiamato DeepTrap è stato sviluppato per identificare vulnerabilità nei modelli linguistici utilizzati in OpenClaw. Questa ricerca, dettagliata nell'articolo arXiv 2605.11047, si concentra sui rischi per la sicurezza legati a vari contesti di esecuzione come file, memoria e strumenti, che vanno oltre i semplici prompt utente. DeepTrap tratta la manipolazione avversaria del contesto come una sfida di ottimizzazione di traiettorie black-box, cercando di bilanciare rischio, integrità del compito e invisibilità. Il framework impiega valutazioni basate sul rischio e punteggi multi-obiettivo per identificare contesti compromessi. È stato creato un benchmark di 42 esempi attraverso sei tipi di vulnerabilità e sette scenari operativi, testando nove modelli utilizzando punteggi di attacco e utilità. I risultati indicano che compromissioni contestuali potrebbero portare ad azioni non sicure pur apparendo funzionali agli utenti.

Fatti principali

1. DeepTrap è un framework automatizzato per scoprire vulnerabilità contestuali in OpenClaw.
2. Il framework affronta i rischi per la sicurezza nei sistemi di modelli linguistici agentici con contesti di esecuzione mutabili.
3. La manipolazione avversaria del contesto è trattata come un problema di ottimizzazione di traiettorie a livello black-box.
4. Vengono bilanciati tre obiettivi: realizzazione del rischio, preservazione del compito benigno e invisibilità.
5. Le tecniche includono valutazione condizionata al rischio, punteggio multi-obiettivo delle traiettorie, ricerca a fascio guidata da ricompensa e sondaggio profondo basato su riflessione.
6. Un benchmark di 42 casi copre sei classi di vulnerabilità e sette scenari operativi.
7. Nove modelli target sono stati valutati utilizzando punteggi di attacco e utilità.
8. La compromissione contestuale può indurre comportamenti sostanzialmente non sicuri preservando la funzionalità visibile all'utente.
9. L'articolo è pubblicato su arXiv con ID 2605.11047.
10. La ricerca evidenzia rischi per la sicurezza oltre i prompt utente espliciti.

DeepTrap Framework Espone Vulnerabilità Contestuali nei Sistemi OpenClaw Agent

Fatti principali

Entità

Istituzioni

Fonti