Difesa basata sull'attenzione contro l'avvelenamento nei sistemi RAG

ai-technology · 2026-05-25

Un nuovo articolo di ricerca su arXiv (2506.04390) introduce un meccanismo di difesa contro gli attacchi di avvelenamento dei dati nei sistemi di generazione aumentata da recupero (RAG). Gli autori formalizzano un gioco di sicurezza basato sulla distinguibilità per quantificare la furtività di tali attacchi, dimostrando che gli attacchi esistenti sono rilevabili. Propongono il Normalized Passage Attention Score (NPAS) e un Attention-Variance Filter (AV Filter) che segnala passaggi anomali analizzando i pesi di attenzione dei LLM. Il metodo migliora la robustezza, raggiungendo fino a circa il 20% di accuratezza in più rispetto agli approcci precedenti.

Fatti principali

Articolo arXiv 2506.04390
I sistemi RAG sono vulnerabili all'iniezione di passaggi avvelenati
Gli attacchi esistenti non sono furtivi
Formalizzato un gioco di sicurezza basato sulla distinguibilità
Introdotti NPAS e AV Filter
Il metodo produce fino a circa il 20% di accuratezza in più
I pesi di attenzione vengono utilizzati per il rilevamento
Focus su attacchi a basso tasso di corruzione

Difesa basata sull'attenzione contro l'avvelenamento nei sistemi RAG

Fatti principali

Entità

Istituzioni

Fonti