MEMSAD: Difesa contro l'avvelenamento della memoria negli agenti LLM
I ricercatori hanno concettualizzato attacchi di avvelenamento della memoria su agenti LLM potenziati da recupero nel quadro di un gioco di Stackelberg, presentando un sistema di valutazione completo che copre tre categorie di attacchi con ipotesi di accesso crescenti. Risolvendo un'incoerenza riscontrata in Chen et al. (2024), una valutazione più accurata rivela un aumento quadruplo dei tassi di successo degli attacchi (ASR-R da 0,25 a 1,00). La loro innovazione chiave, MEMSAD (Rilevamento di Anomalie Semantiche), è un meccanismo di difesa basato sulla calibrazione e su un teorema di accoppiamento dei gradienti: quando la regolarità del codificatore è mantenuta, i gradienti del punteggio di anomalia e degli obiettivi di recupero si allineano, garantendo che qualsiasi perturbazione continua che riduce il rischio di rilevamento diminuisca anche il rango di recupero. Questa relazione fornisce una garanzia di raggio di rilevamento certificato, sottolineando la necessità di esplorare la memoria esterna persistente come problema di sicurezza per gli agenti LLM.
Fatti principali
- Attacchi di avvelenamento della memoria su agenti potenziati da recupero formalizzati come gioco di Stackelberg
- Quadro di valutazione unificato che copre tre classi di attacchi con ipotesi di accesso crescenti
- Correzione dell'incoerenza del protocollo di Chen et al. (2024) aumenta ASR-R da 0,25 a 1,00
- Difesa MEMSAD utilizza teorema di accoppiamento dei gradienti che collega punteggio di anomalia e gradienti di recupero
- Garanzia di raggio di rilevamento certificato fornita dall'accoppiamento
- Proprietà di sicurezza della memoria esterna persistente precedentemente non caratterizzate
- Tasso di successo degli attacchi (ASR-R) misurato sotto valutazione fedele
- La difesa garantisce che qualsiasi perturbazione che riduce il rischio di rilevamento danneggi il rango di recupero
Entità
Istituzioni
- arXiv