Attacchi di iniezione camuffati da dominio eludono i sistemi di rilevamento LLM
Uno studio recente pubblicato su arXiv indica che i sistemi di rilevamento delle iniezioni per agenti LLM falliscono quando i payload replicano il vocabolario specifico e i quadri di autorità di un dominio, un fenomeno chiamato iniezione camuffata da dominio. L'efficacia del rilevamento è crollata dal 93,8% al 9,7% per Llama 3.1 8B e dal 100% al 55,6% per Gemini 2.0 Flash. Il Camouflage Detection Gap (CDG) ha mostrato una significatività statistica rilevante in 45 compiti, coprendo tre domini e due famiglie di modelli. In particolare, Llama Guard 3, un classificatore progettato per la sicurezza in produzione, non è riuscito a identificare alcuna iniezione camuffata.
Fatti principali
- Il paper arXiv 2605.22001 identifica gli attacchi di iniezione camuffati da dominio.
- I tassi di rilevamento sono scesi dal 93,8% al 9,7% su Llama 3.1 8B.
- I tassi di rilevamento sono scesi dal 100% al 55,6% su Gemini 2.0 Flash.
- Il Camouflage Detection Gap (CDG) è formalizzato come differenza nei tassi di rilevamento.
- Il CDG è statisticamente significativo (chi^2 = 38,03 per Llama, chi^2 = 17,05 per Gemini).
- Non sono state osservate coppie discordanti inverse.
- Llama Guard 3 non ha rilevato alcuna iniezione camuffata.
- Lo studio ha coperto 45 compiti in tre domini e due famiglie di modelli.
Entità
Istituzioni
- arXiv
- Llama 3.1
- Gemini 2.0 Flash
- Llama Guard 3