ARTFEED — Contemporary Art Intelligence

Attacchi di iniezione camuffati da dominio eludono i sistemi di rilevamento LLM

ai-technology · 2026-05-23

Uno studio recente pubblicato su arXiv indica che i sistemi di rilevamento delle iniezioni per agenti LLM falliscono quando i payload replicano il vocabolario specifico e i quadri di autorità di un dominio, un fenomeno chiamato iniezione camuffata da dominio. L'efficacia del rilevamento è crollata dal 93,8% al 9,7% per Llama 3.1 8B e dal 100% al 55,6% per Gemini 2.0 Flash. Il Camouflage Detection Gap (CDG) ha mostrato una significatività statistica rilevante in 45 compiti, coprendo tre domini e due famiglie di modelli. In particolare, Llama Guard 3, un classificatore progettato per la sicurezza in produzione, non è riuscito a identificare alcuna iniezione camuffata.

Fatti principali

  • Il paper arXiv 2605.22001 identifica gli attacchi di iniezione camuffati da dominio.
  • I tassi di rilevamento sono scesi dal 93,8% al 9,7% su Llama 3.1 8B.
  • I tassi di rilevamento sono scesi dal 100% al 55,6% su Gemini 2.0 Flash.
  • Il Camouflage Detection Gap (CDG) è formalizzato come differenza nei tassi di rilevamento.
  • Il CDG è statisticamente significativo (chi^2 = 38,03 per Llama, chi^2 = 17,05 per Gemini).
  • Non sono state osservate coppie discordanti inverse.
  • Llama Guard 3 non ha rilevato alcuna iniezione camuffata.
  • Lo studio ha coperto 45 compiti in tre domini e due famiglie di modelli.

Entità

Istituzioni

  • arXiv
  • Llama 3.1
  • Gemini 2.0 Flash
  • Llama Guard 3

Fonti