Attacchi di iniezione camuffati da dominio eludono i sistemi di rilevamento LLM

ai-technology · 2026-05-23

Uno studio recente pubblicato su arXiv indica che i sistemi di rilevamento delle iniezioni per agenti LLM falliscono quando i payload replicano il vocabolario specifico e i quadri di autorità di un dominio, un fenomeno chiamato iniezione camuffata da dominio. L'efficacia del rilevamento è crollata dal 93,8% al 9,7% per Llama 3.1 8B e dal 100% al 55,6% per Gemini 2.0 Flash. Il Camouflage Detection Gap (CDG) ha mostrato una significatività statistica rilevante in 45 compiti, coprendo tre domini e due famiglie di modelli. In particolare, Llama Guard 3, un classificatore progettato per la sicurezza in produzione, non è riuscito a identificare alcuna iniezione camuffata.

Fatti principali

Il paper arXiv 2605.22001 identifica gli attacchi di iniezione camuffati da dominio.
I tassi di rilevamento sono scesi dal 93,8% al 9,7% su Llama 3.1 8B.
I tassi di rilevamento sono scesi dal 100% al 55,6% su Gemini 2.0 Flash.
Il Camouflage Detection Gap (CDG) è formalizzato come differenza nei tassi di rilevamento.
Il CDG è statisticamente significativo (chi^2 = 38,03 per Llama, chi^2 = 17,05 per Gemini).
Non sono state osservate coppie discordanti inverse.
Llama Guard 3 non ha rilevato alcuna iniezione camuffata.
Lo studio ha coperto 45 compiti in tre domini e due famiglie di modelli.

Attacchi di iniezione camuffati da dominio eludono i sistemi di rilevamento LLM

Fatti principali

Entità

Istituzioni

Fonti