Firewall Comportamentale per Agenti AI Raggiunge lo 0% di Successo negli Attacchi in Flussi di Lavoro Multi-Step

ai-technology · 2026-04-30

Un recente preprint su arXiv (2604.26274) presenta Codename, un firewall progettato per il rilevamento di anomalie comportamentali in agenti AI con flussi di lavoro strutturati, basato su dati di telemetria. Questo sistema costruisce un automa deterministico finito parametrizzato (pDFA) a partire da telemetrie di chiamate a strumenti confermate come benigne, delineando sequenze di strumenti accettabili, contesti e limiti dei parametri. Durante il funzionamento, un gateway leggero mantiene questi vincoli attraverso ricerche di transizione di stato O(1), consentendo di eseguire analisi intensive offline. I test su Agent Security Bench (ASB) rivelano che Codename registra un tasso di successo degli attacchi (ASR) medio macro del 5,6% in cinque scenari. In tre flussi di lavoro strutturati, l'ASR scende al 2,2%, superando Aegis, un leader scanner senza stato, che ha un ASR del 12,8%. Codename registra uno 0% di ASR per attacchi multi-step e contestuali-sequenziali.

Fatti principali

arXiv:2604.26274v1
Codename è un firewall per il rilevamento di anomalie comportamentali basato su telemetria
Utilizza un automa deterministico finito parametrizzato (pDFA)
Applicazione runtime tramite ricerca strutturale di transizione di stato O(1)
Valutato su Agent Security Bench (ASB)
5,6% di tasso di successo degli attacchi medio macro in cinque scenari
2,2% di ASR in tre flussi di lavoro strutturati
Supera Aegis (12,8% ASR)
0% di ASR su attacchi multi-step e contestuali-sequenziali

Firewall Comportamentale per Agenti AI Raggiunge lo 0% di Successo negli Attacchi in Flussi di Lavoro Multi-Step

Fatti principali

Entità

Istituzioni

Fonti