ARTFEED — Contemporary Art Intelligence

Minacce AI Agent Cross-Sessione: Nuovo Benchmark e Metodi di Rilevamento

ai-technology · 2026-04-25

È stata scoperta una grave lacuna nei sistemi di protezione degli agenti AI: mancano di memoria, valutando ogni messaggio in modo indipendente. Questa carenza consente agli aggressori di eseguire un singolo attacco in più sessioni, evitando il rilevamento poiché solo il risultato cumulativo contiene il payload dannoso. Per contrastare questo problema, i ricercatori hanno sviluppato CSTM-Bench, un dataset con 26 categorie di attacco eseguibili organizzate per fase della kill-chain e azioni cross-sessione (accumula, compone, ricicla, inietta_su_lettore). Ogni attacco è collegato a uno dei sette ancoraggi di identità che definiscono le violazioni come predicati di policy, insieme ai corrispondenti confonditori benigni. Disponibile su Hugging Face come intrinsec-ai/cstm-bench, il dataset include due divisioni da 54 scenari: diluizione (composizionale) e cross_sessione (12 scenari che rimangono non rilevati tra le sessioni). Questo studio ridefinisce il rilevamento cross-sessione come una sfida di teoria dell'informazione e suggerisce algoritmi di rilevamento, essenziali per migliorare la sicurezza delle interazioni AI multi-sessione.

Fatti principali

  • I sistemi di protezione degli agenti AI sono privi di memoria, giudicando ogni messaggio in modo isolato.
  • Gli avversari possono distribuire gli attacchi su più sessioni per eludere i rilevatori legati alla sessione.
  • CSTM-Bench contiene 26 tassonomie di attacco eseguibili.
  • Gli attacchi sono classificati per fase della kill-chain e operazione cross-sessione.
  • Sette ancoraggi di identità definiscono la violazione come predicato di policy.
  • Il dataset include confonditori Benigni-pristini e Benigni-difficili.
  • Rilasciato su Hugging Face come intrinsec-ai/cstm-bench.
  • Due suddivisioni: diluizione (composizionale) e cross_sessione (12 scenari).

Entità

Istituzioni

  • Hugging Face

Fonti