MEMSAD: Difesa contro l'avvelenamento della memoria negli agenti LLM

ai-technology · 2026-05-07

I ricercatori hanno concettualizzato attacchi di avvelenamento della memoria su agenti LLM potenziati da recupero nel quadro di un gioco di Stackelberg, presentando un sistema di valutazione completo che copre tre categorie di attacchi con ipotesi di accesso crescenti. Risolvendo un'incoerenza riscontrata in Chen et al. (2024), una valutazione più accurata rivela un aumento quadruplo dei tassi di successo degli attacchi (ASR-R da 0,25 a 1,00). La loro innovazione chiave, MEMSAD (Rilevamento di Anomalie Semantiche), è un meccanismo di difesa basato sulla calibrazione e su un teorema di accoppiamento dei gradienti: quando la regolarità del codificatore è mantenuta, i gradienti del punteggio di anomalia e degli obiettivi di recupero si allineano, garantendo che qualsiasi perturbazione continua che riduce il rischio di rilevamento diminuisca anche il rango di recupero. Questa relazione fornisce una garanzia di raggio di rilevamento certificato, sottolineando la necessità di esplorare la memoria esterna persistente come problema di sicurezza per gli agenti LLM.

Fatti principali

Attacchi di avvelenamento della memoria su agenti potenziati da recupero formalizzati come gioco di Stackelberg
Quadro di valutazione unificato che copre tre classi di attacchi con ipotesi di accesso crescenti
Correzione dell'incoerenza del protocollo di Chen et al. (2024) aumenta ASR-R da 0,25 a 1,00
Difesa MEMSAD utilizza teorema di accoppiamento dei gradienti che collega punteggio di anomalia e gradienti di recupero
Garanzia di raggio di rilevamento certificato fornita dall'accoppiamento
Proprietà di sicurezza della memoria esterna persistente precedentemente non caratterizzate
Tasso di successo degli attacchi (ASR-R) misurato sotto valutazione fedele
La difesa garantisce che qualsiasi perturbazione che riduce il rischio di rilevamento danneggi il rango di recupero

MEMSAD: Difesa contro l'avvelenamento della memoria negli agenti LLM

Fatti principali

Entità

Istituzioni

Fonti