ARTFEED — Contemporary Art Intelligence

DeepTrap Framework Espone Vulnerabilità Contestuali nei Sistemi OpenClaw Agent

ai-technology · 2026-05-13

Un nuovo sistema automatizzato chiamato DeepTrap è stato sviluppato per identificare vulnerabilità nei modelli linguistici utilizzati in OpenClaw. Questa ricerca, dettagliata nell'articolo arXiv 2605.11047, si concentra sui rischi per la sicurezza legati a vari contesti di esecuzione come file, memoria e strumenti, che vanno oltre i semplici prompt utente. DeepTrap tratta la manipolazione avversaria del contesto come una sfida di ottimizzazione di traiettorie black-box, cercando di bilanciare rischio, integrità del compito e invisibilità. Il framework impiega valutazioni basate sul rischio e punteggi multi-obiettivo per identificare contesti compromessi. È stato creato un benchmark di 42 esempi attraverso sei tipi di vulnerabilità e sette scenari operativi, testando nove modelli utilizzando punteggi di attacco e utilità. I risultati indicano che compromissioni contestuali potrebbero portare ad azioni non sicure pur apparendo funzionali agli utenti.

Fatti principali

  • 1. DeepTrap è un framework automatizzato per scoprire vulnerabilità contestuali in OpenClaw.
  • 2. Il framework affronta i rischi per la sicurezza nei sistemi di modelli linguistici agentici con contesti di esecuzione mutabili.
  • 3. La manipolazione avversaria del contesto è trattata come un problema di ottimizzazione di traiettorie a livello black-box.
  • 4. Vengono bilanciati tre obiettivi: realizzazione del rischio, preservazione del compito benigno e invisibilità.
  • 5. Le tecniche includono valutazione condizionata al rischio, punteggio multi-obiettivo delle traiettorie, ricerca a fascio guidata da ricompensa e sondaggio profondo basato su riflessione.
  • 6. Un benchmark di 42 casi copre sei classi di vulnerabilità e sette scenari operativi.
  • 7. Nove modelli target sono stati valutati utilizzando punteggi di attacco e utilità.
  • 8. La compromissione contestuale può indurre comportamenti sostanzialmente non sicuri preservando la funzionalità visibile all'utente.
  • 9. L'articolo è pubblicato su arXiv con ID 2605.11047.
  • 10. La ricerca evidenzia rischi per la sicurezza oltre i prompt utente espliciti.

Entità

Istituzioni

  • arXiv

Fonti