ARTFEED — Contemporary Art Intelligence

Difesa basata sull'attenzione contro l'avvelenamento nei sistemi RAG

ai-technology · 2026-05-25

Un nuovo articolo di ricerca su arXiv (2506.04390) introduce un meccanismo di difesa contro gli attacchi di avvelenamento dei dati nei sistemi di generazione aumentata da recupero (RAG). Gli autori formalizzano un gioco di sicurezza basato sulla distinguibilità per quantificare la furtività di tali attacchi, dimostrando che gli attacchi esistenti sono rilevabili. Propongono il Normalized Passage Attention Score (NPAS) e un Attention-Variance Filter (AV Filter) che segnala passaggi anomali analizzando i pesi di attenzione dei LLM. Il metodo migliora la robustezza, raggiungendo fino a circa il 20% di accuratezza in più rispetto agli approcci precedenti.

Fatti principali

  • Articolo arXiv 2506.04390
  • I sistemi RAG sono vulnerabili all'iniezione di passaggi avvelenati
  • Gli attacchi esistenti non sono furtivi
  • Formalizzato un gioco di sicurezza basato sulla distinguibilità
  • Introdotti NPAS e AV Filter
  • Il metodo produce fino a circa il 20% di accuratezza in più
  • I pesi di attenzione vengono utilizzati per il rilevamento
  • Focus su attacchi a basso tasso di corruzione

Entità

Istituzioni

  • arXiv

Fonti